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生物 信息 学 (Bioinformatics) 是 应 用 数理 和 信息 科学 的 理论 
和 方法 研究 生命 现象 ， 组 织 和 分 析 日 益 剧 增 的 生物 信息 数据 库 的 
一 门 新 兴学 科 。 它 主要 利用 计算 机 、 网 络 技术 和 不 断 发 展 的 各 种 
软件 , 研究 遗传 物质 的 载体 DNA 及 其 编码 的 功能 大 分 子 蛋白 质 ， 
对 逐日 增多 的 序列 和 结构 进行 收集 、 整 理 、 储 存 、 发 布 、 提 取 和 
加 工 ， 并 从 中 分 析 和 发 现 新 的 序列 ， 从 而 不 断 揭示 人 体 生理 和 病 
理 过 程 的 分 子 基 础 ， 为 人 类 疾病 的 预防 、 诊 断 和 治疗 提供 根本 依 
据 。 实 际 上 ， 生 物 信息 学 不 仅 已 经 成 为 生物 医学 、 遗 传 学 、 农 学 
等 学 科 发 展 的 强大 动力 ， 而 且 也 为 药物 设计 提供 了 有 效 途 径 。 
随 着 人 类 基因 组 计划 的 不 断 发展 ， 生 物 信息 学 的 研究 范围 已 
从 结构 基因 组 学 扩展 到 功能 基因 组 学 ， 随 之 又 出 现 了 进化 基因 组 
学 。 生 物 信息 学 的 根本 任务 之 一 是 发 现 新 的 基因 、 蛋 白 及 其 功能 。 
生物 信息 学 的 特点 是 投资 少 ， 见 效 快 ， 效 益 大 ， 适 合 我 国 的 现实 
条 件 。 本 书 编著 者 是 在 生物 信息 学 第 一 线 工 作 的 青年 科学 工作 者 ， 
他 们 通过 钻研 与 实践 ， 已 经 基本 掌握 了 如 何 从 因特网 上 不 断 收集 
数据 ， 并 能 进行 分 析 、 归 类 与 重组 ,发 现 新 线索 、 新 现象 和 新 规 
律 ， 不 仅 发 现 并 克隆 了 与 肿瘤 分 化 相关 的 新 基因 ， 并 登录 
GenBank, 对 有 的 新 基因 的 功能 也 做 了 初步 研究 ,并 以 此 为 基础 获 
得 了 国家 自然 科学 基金 的 资助 。 可 贵 的 是 ， 他 们 还 把 自己 应 用 生 
物 信息 学 的 经 验 ， 在 《生命 科学 ) 上 介绍 。 为 了 加 速 我 国生 物 信 
息 学 的 不 断 决 速 发 展 ， 培 养 一 批 在 数理 、 信 息 科学 、 计 算 机 科学 
和 分 子 生物 学 方面 均 有 造 话 的 跨 学 科 人 才 的 任务 十 分 迫 切 ， 斩 本 
书 能 在 这 一 方面 发 挥 积极 作用 ,吸引 更 多 有 志 之 士 参 与 生物 信息 
学 研究 ， 用 不 断 发 展 的 生物 信息 学 推动 我 国生 命 科学 的 发 展 ， 发 
现 更 多 具有 我 国 自主 知识 产权 的 生物 大 分 子 ， 为 我 国 科技 创新 做 
出 贡献 。 
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苍 字 时 空 无 朝 ， 科 学 前 沿 无 涯 。 

近年 来 ， 随 着 分 子 生物 学 、 人 类 基因 组 计划 的 快速 发 展 ， 相 
应 地 产生 了 一 门 新 兴 的 学 科 一 一 生物 信息 学 。 它 的 出 现 是 生命 科 
学 、 计 算 机 网 络 技术 快速 发 展 的 必然 结果 ， 同 时 又 对 包括 分 子 生 
物 学 、 免 疫 学 、 神 经 科学 在 内 的 许多 学 科 的 发 展 起 到 了 良好 的 促 
进 作 用 。 我 们 还 欣喜 地 看 到 这 门 学 科 对 科研 思维 、 科 学 工作 方法 
的 扩展 和 改进 都 有 助 益 。 

但 是 ， 这 毕竟 是 一 门 靳 新 的 学 科 ， 有 许多 生物 学 研究 者 、 临 
床 工作 者 和 青年 学 生 对 此 不 够 了 解 。 而 在 国内 ， 系 统 地 、 深 入 浅 
出 地 介绍 这 方面 知识 的 书籍 很 少见 到 。《 生 物 信 息 学 概论 ) 一 书 的 
出 版 提供 了 极 好 的 参考 资料 和 学 习 读本 ， 能 够 起 到 普及 和 提高 的 
作用 ， 使 生命 科学 工作 者 受到 这 方面 的 训练 和 培养 ， 使 年 轻 学 子 
易于 掌握 其 基础 知识 和 研究 方法 。 

我 校 三 位 青年 学 者 : 王 哲 、 王 林 、 刘 刚 ， 近 几 年 十 分 关注 这 
一 学 科 的 发 展 。 他 们 在 完成 各 自 研究 课题 的 同时 ， 炙 心 钻研 ， 学 
握 了 丰富 的 相关 资讯 。 本 书 就 是 他 们 厚积薄发 、 大 胆 尝 试 之 作 。 这 
是 一 本 具有 较 高 学 术 水 平 的 参考 书 ， 它 的 出 版 无 疑 会 对 生物 信息 
学 的 普及 ， 以 及 生物 学 各 领域 的 深入 研究 起 到 积极 的 推动 作用 。 

我 热忱 地 祝贺 本 书 的 出 版 ， 并 向 广大 生命 科学 工作 者 ， 特 别 
是 青年 学 者 推荐 此 书 。 


Awa 玉 
辛 已 岁 末 
于 第 四 军医 大 学 
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近 十 年 ， 由 于 分 子 生 物 学 在 基因 排列 和 蛋白 质 识别 的 研究 上 
取得 了 可 喜 的 进步 ， 也 由 于 对 生物 体 功能 和 结构 关系 深入 研究 的 
必需 ， 载 录 有 数 十 亿 数 据 信息 的 各 类 数据 库 需 要 有 一 个 强 有 力 的 
分 析 工具 ， 用 来 描述 数据 与 生物 学 意义 之 间 的 关联 , 用 来 收集 、 归 
纳 、 研 究 各 类 生物 信息 。 这 一 工具 就 是 生物 信息 学 一 一 门 传统 
生物 学 与 计算 生物 学 的 交叉 学 科 。 

它 的 出 现 一 方面 是 生命 科学 自身 发 展 的 需求 ; 另 一 方面 ， 信 
息 科 学 、 计 算 机 及 网 络 技术 也 为 它 的 发 展 提供 了 理论 支持 和 操作 
的 平台 。 二 者 的 结合 使 得 对 生物 数据 的 演算 、 组 织 归 纳 和 分 析 成 
为 可 能 ， 并 最 终 构架 出 具有 生物 学 意义 的 本 质 内 容 。 

如 今 ， 从 事 这 一 学 科 的 研究 开发 、 管 理 维护 以 及 教学 培训 的 
专门 人 员 已 为 数 不 少 ; 应 用 这 一 工具 为 自己 的 科研 服务 的 人 就 更 
多 了 。 大 致 地 ， 可 以 将 他 们 分 为 Doer 和 User 两 类 。 前 者 是 生物 
信息 学 的 专业 人 员 ， 包 括 各 种 研究 机 构 (诸如 : NCBI) 的 从 业 人 
员 、 大 学 里 本 专业 的 教研 人 员 等 等 。 他 们 中 间 有 信息 科学 、 分 子 
生物 学 、 结 构 生物 学 、 计 算 机 及 网 络 技 术 、 数 学 等 方面 的 研究 人 
员 。 而 后 者 则 是 生物 信息 学 的 服务 对 象 ， 包 括 生物 学 、 医 学 、 药 
学 等 学 科 的 相关 研究 者 。 他 们 利用 已 建立 好 的 各 类 数据 库 中 的 信 
息 为 自己 的 研究 服务 ,同时 也 可 能 成 为 数据 库 的 提交 者 和 充实 者 。 
这 本 书 就 是 为 User 提供 基本 知识 的 读物 。 

生物 信息 学 的 一 个 特点 是 发 展 速度 很 快 。 今 天 在 网 络 上 看 到 
的 东西 已 经 与 一 年 前 有 所 不 同 了 。 形 式 上 的 不 同 仅 是 一 方面 ， 而 
更 为 重要 的 是 内 容 上 的 变化 。 因 此 ， 写 这 方面 的 专著 ， 常 有 跟 不 
上 变化 的 感觉 ; 写成 的 东西 也 常常 沦 为 “an Old Link", 而 显得 实 
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热 之 后 ， 其 主要 的 形式 和 入 口 亦 随 之 稳定 下 来 。 相 关 的 方法 学 已 
详细 地 制定 出 来 了 ,国际 著名 的 一 些 数 据 库 将 会 长 期 地 发 展 下 去 。 
很 多 人 发 现 ， 对 生物 信息 学 的 基本 内 容 有 了 相当 的 了 解 之 后 ， 追 
逐 相 关 数 据 库 的 不 断 变 化 、 进 展 ， 是 一 件 令 人 着 迷 的 事情 。 而 这 
本 书 将 就 生物 信息 学 的 基础 知识 和 最 新 进展 做 一 系统 的 介绍 。 
这 不 是 一 本 关于 基因 和 蛋白 质 分 析 的 实用 手册 ， 而 是 介绍 基 
本 概念 、 基 本 方法 和 生物 学 数据 库 最 新 资讯 的 专著 。 对 于 那些 初 
入 门 的 User， 这 本 书 将 是 很 有 助 益 的 。 另 外 ， 本 书 的 写作 亦 未 过 
分 简单 化 。 其 中 的 实用 资料 和 解释 ， 为 研究 者 提供 了 有 用 的 信息 
和 帮助 。 
一 年 前 , 同学 小 聚 。 谈 古 论 今 之 时 ， 亦 未 敢 遗 忘 正统 学 业 。 众 
人 均 对 生物 信息 学 有 兴趣 : 言 其 发 展 神速 ， 言 其 已 使 分 子 生物 学 
进入 了 新 境界 ， 言 其 对 研究 方法 、 工 作 思维 有 深刻 地 影响 ， 等 等 。 
深 谈 入 若 ， 北 有 著述 之 意 。 
其 后 的 写作 立即 陷入 了 辛苦 的 套路 之 中 ， 时 常 深 感 已 入 
harmless drudges 之 境 。 然 破 研 有 成 ， 今 事 随 人 愿 。 
但 收获 之 余 ， 有 遗 珠 之 恨 ; 欣喜 之 际 ， 有 憾事 不 已 。 唯 愿 读 
者 不 音 赐 教 ， 以 利 我 等 不 断 地 对 此 学 问 有 新 的 领悟 。 
最 后 ， 感 谢 各 位 : 
医学 管理 医学 硕士 王 东 光 先 生 
病 理 学 医学 博士 ”部 华章 先生 
放 射 学 医学 学 士 汤 志 华 先生 
病 理 学 医学 博士 ARRE 
他 们 为 本 书 的 完成 ， 提 供 了 丰富 的 资讯 服务 和 有 益 的 信心 支 
持 。 
作者 ER 
2001 年 10 月 2 日 
于 第 四 军医 大 学 


第 一 章 概论 … Senshi 
第 一 节 生物 信息 学 及 其 与 生物 学 的 关系 … 


第 二 节 计算 机 在 生物 学 及 医学 领域 的 应 用 “es 


T 
lI 


第 一 节 ”蛋白 质 的 结构 与 功能 


\ 


Bw 


4 


BRE 


H Xx 


o EA AÈ B E h Ree ee 
、 生 物 学 的 发 展 与 生物 信息 学 … 
、 基 因 组 学 、 蛋 白质 组 学 与 生物 信息 学 "… 
、 国 内 生物 信息 学 现状 及 展望 … 


tO D oO» gb ox to 一 


生物 学 、 医 学 的 计算 机 
、 计 算 机 算法 、 
、 不 同类 型 计算 机 的 功用 
、 计 算 机 分 析 的 局 限 性 ee 
、 对 更 好 的 计算 机 工具 的 需 束 6M 
、 网 络 与 生物 信息 学 ……… 
生物 大 分 子 ， 


一 、 蛋 白质 的 结构 。 RAUM PES, 
1， 和 氨基 酸 的 结构 ee 
2. KB Sd ne 
3. 蛋白质 的 构象 … 


二 、 有 蛋白 质 功能 eee 


二 节 ”核酸 的 结构 和 功能 .pp 39 


. DNA 和 RNA 的 结构 ppp 39 


2 生物 信息 学 概论 


SIE 数据 库 和 搜索 工具 …- 


46 
第 一 节 计算 机 工具 和 数据 库 * 46 
一 、 美 国 国家 生物 技术 信息 中 心 (NCBI) - 48 
【NCBI 提供 的 主要 服务 】 52 
1. PubMed «I 53 

2. BLAST (Basic Local Alignment Scarch Tool) 
53 
3. Entrez + 53 


4. Banklt «eee HH 5B 
5. OMIM (Online Mendelian Inheritance in Man) 


6. Taxonomy + 


7. Structure e emen 5O 
8. "Books od 
(NCBI 的 Hot Spots] 


. Cancer Genome Anatomy Project «88H60 


Clusters of Orthologous Groups 
Coffee Break - 
Electronic PCR … 


Gene Expression Omnibus «emm m 65 


Genes and disease 


Human genome resources 


Human map viewer «emeret entm entente 


o onp c oROO 5 


Human/mouse homology maps … 
LocusLink 
. Malaria genetics & genomic 


ORF finder ee 


Reference sequence project 


= 
S 


= 


-e = e 
e won 


. Retrovirus resources “eee 


Hox 3 


15. Serial analysis of gene expression + 69 
16. SKY/CGH database «eene tnnt nnn 70 
17. Trace archive ee * 70 
18. UniGene .oo + 70 
19. VecScreen oo TI 
二 、 欧 洲 生物 信息 学 研究 所 (EBI) n 
1. EMBL 核 葵 酸 序列 数据 库 * 75 
2. SWISS-PROT 蛋白 序列 数据 库 76 
4. dbEST 和 dbSTS «MM 77 
5. PDB (Brookhaven 镜像 站 点 ) … porri 
6. IMGT 数据 库 (The International 
ImMunoGeneTics Database) … 78 
三 、 日 本 生物 信息 学 服务 器 (GenomeNet) : 82 
GenomeNet 网 站 的 链接 … + 83 


1. 
2. 
3. 
4. 
第 二 节 


一 、 序 列 相似 性 搜索 工具 


-2 0 c & wNdDe 


1. 


京都 基因 和 基因 组 百科 全 书 一 KEGG eee 85 
KEGG 代谢 数据 库 的 应 用 m 

生物 分 子 的 一 般 信 息 资料 …… 
数据 库 开 发 工具 eee 


D: SE OORE 
: PAATE NEETER - 91 
. 序列 排列 的 用 途 … UM 

大 多 数 蛋白 序列 算法 的 基本 概念 … 93 
. NCBI 的 同 源 搜索 基本 工具 -BLAST … 93 


.EBI 的 同 源 搜索 工具 一 FASTA e 
.数据 库 序列 搜索 概述 … 


特征 识别 工具 和 数据 库 *… eM 
Prosite 数据 库 储 存 的 信息 及 对 用 户 的 作用 … 


4 生物 信息 学 概论 


2. Prosite 文件 资料 的 提供 方式 … saene TOA 
3. 识别 信号 的 含义 及 阅读 和 构建 的 方法 nen 104 

第 四 章 ”基因 组 分 析 … Wd dsescesessesscseossiseseee JI] 
第 一 节 DNA WEA PCR. «n 


—. DNA 克隆 … … 112 


2 … 113 
三 、 … 114 
四 、 多 聚 酶 链 式 反应 (PCR) … * 116 
五 、 发 展 中 的 测序 技术 16 
六 、 监 测 测序 进展 * 117 

第 二 节 DNA BNA Se 7 18 
一 、 数 据 库 数据 提交 … 119 


三 、 序 列 排列 eH n + 127 
v. X ERE S EA ERES SMM MM MM - 127 
五 、 开 放 读 框 和 未 确认 读 框 … 128 


第 三 节 ”基因 组 分 析 *… 
、 基 因 组 的 组 织 … 


* 130 


* 130 

二 、 基 因 组 作 图 … … 136 

l. 遗传 连锁 图 谱 … 136 

2， 物 理 图 谱 * 138 

3. RAB … 138 
A. 减少 宛 余 性 


三 、 人 类 基因 组 作 图 进展 
四 、 人 类 基因 组 序列 草图 公布 
第 四 节 功能 基因 组 … ooeeeoeeseeeeeeeeseseee 
、 未 确认 的 读 框 (Unidentified Reading Frames, 
URFs) 
=. KRHA (Cluster of Orthologous Groups: 


… 147 


COGS) --HeMHMR ee enn 148 
第 五 节 人 美 基因 组 计划 与 生物 信息 学 研究 ee 150 
一 、 高 度 自动 化 的 实验 数据 获得 、 加 工 和 整理 …………p 151 
二 、 序 列 片 段 的 拼接 … (— eH eH 15] 
XS KB 区 域 的 预测 … m D 
四 、 基 因 功 能 预测 … 
SiR 蛋白质 组 分 析 … 
第 一 节 ”蛋白质 组 学 … tern … 
、 蛋 白质 组 学 研究 的 策略 和 技术 … 58 
二 、EXPASY 的 二 维 聚 丙烯 酰胺 凝 胶 数据 库 enn 162 
Z, it ee so KAGER See 
二 节 ”代谢 通路 的 重建 … 
一 、 京 都 基因 、 基 因 组 百科 全 书 一 KEGG 
二 、 功 能 重建 模型 … si ORTOS HEROS 
三 、 大 肠 杆 菌 代谢 数据 库 : EcoCyc ce 
SAR ”生物 信息 学 在 生物 学 中 的 其 它 应 用 : 
第 一 节 ”分 子 结构 可 视 化 与 计算 机 模拟 … n n MMMMMMSHS 
一 、3 一 DD 成 像 (三 维 成 像 ) pe 
[28 虚拟 医生 及 虚拟 人 体 sooo0 和 essese cece ss 
第 二 节 ”神经 生物 信息 学 的 研究 … 
一 、 人 类 脑 计划 和 人 脑 图 谱 … 
二 、 神 经 变性 性 疾病 的 分 子 机 制 …… 
第 三 节 ”生物 信息 学 在 肿瘤 学 研究 中 的 应 用 pp 
附录 一 ”分 子 生物 学 数据 库 一 览 表 ………………… 
附录 二 ”生物 信息 学 定义 一 览 表 … 


当今 世界 ， 科 学 技术 的 发 展 日 新 月 异 。 其 中 ， 生 命 科 学 的 进 
展 尤 为 引 人 注 目 。 进 入 分 子 水 平 以 来 ， 人 们 发 现在 生物 化 学 、 分 
子 生物 学 、 免 疫 学 以 及 小 传 学 领域 的 研究 中 有 大 量 的 数据 资料 需 
要 处 理 。 于 是 ， 随 着 计算 机 技术 、 网 络 通讯 的 飞速 发 展 ， 产 生 了 
一 门 新 兴 的 学 科 一 一 生物 信息 学 。 它 首先 利用 电子 计算 机 技术 ,对 
在 分 子 生物 学 等 学 科 的 研究 中 产生 出 来 的 大 量 原始 数据 进行 收 
集 、 整 理 和 管理 ;其 次 ,对 各 种 数据 进行 对 比 , 分 析 、 归 纳 并 建立 计 
算 模型 ,以 期 更 好 地 解释 数据 ,并 进行 结构 、 功 能 的 预测 以 及 仿真 ， 
等 等 (图 1-1)。 它 的 出 现 极 大 地 推动 了 分 子 生 物 学 的 发 展 , 在 人 类 
基因 组 计划 的 研究 中 发 挥 了 重要 的 作用 .这 门 学 科 在 生物 学 、 医 学 
领域 有 着 十 分 广泛 的 应 用 。 其 中 的 一 些 大 型 生物 学 数据 库 包含 了 
众多 的 生物 学 信息 资源 ， 人 们 可 以 很 方便 地 从 国际 互联 网 上 寻找 
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图 1-1 生物 信息 学 是 计算 机 科学 ,数学 和 分 子 生物 学 之 间 的 桥梁 


+2. 生物 信息 学 概论 


所 需 的 资料 和 处 理工 具 。 这 不 仅 方便 了 研究 思想 和 资料 的 交流 , 减 
少 了 许多 重复 性 的 工作 ,而 且 也 提供 了 一 种 声 新 的 思维 方式 和 科 
研 工作 方法 。 近 年 来 ,互联 网 的 高 速 发 展 为 人 们 共享 数据 资源 、 合 
作 研 究 提供 了 网 络 这 一 物质 基础 。 越 来 越 多 的 生物 学 、 医 学 ,药学 
工作 者 认识 到 生物 信息 学 的 重要 性 和 实用 性 ,其 良好 的 发 展 前 景 
业已 显现 。 
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近 十 多 年 来 ,生命 科学 在 分 子 水 平 上 进行 了 广泛 而 深入 地 研 
究 。 随 之 而 来 的 是 大 量 的 数据 结果 需要 处 理 。 特别 是 生物 化 学 、 分 
子 生物 学 及 遗传 学 的 研究 ,各 种 各 样 的 有 关 生 物 分子 的 原始 实验 
数据 ,数量 十 分 庞大 .因此 ,利用 计算 机 技术 处 理 数据 十 分 必要 。 另 
外 ,众多 的 学 科 , 诸 如 结构 生物 学 、 酶 学 、 细 胞 生物 学 生理学、 病理 
学 、 神 经 生物 学 等 等 ,从 不 同 角度 的 研究 结果 ,可 经 过 计算 机 的 分 
类 ,组 织 和 构建 ,形成 具有 生物 学 意义 的 新 的 研究 结果 。 这 些 新 的 
结果 是 对 生命 体 的 细胞 结构 和 功能 更 为 本 质 的 反映 。 在 这 样 的 情 
形 下 ,生物 信息 学 应 运 而 生 。 

生物 信息 学 (Bioinformatics) 的 萌生 可 以 追溯 到 1956 年 , 那 
时 还 是 计算 机 的 初创 期 ,在 美国 田纳西 州 的 Gatlinburg, 曾 召开 过 
首次 “生物 学 中 的 信息 理论 讨论 会 *, 这 拉 开 了 生物 信息 学 的 序幕 。 
随 着 二 十 世纪 八 \ 九 十 年 代 计 算 机 技术 的 迅猛 发 展 , 它 才 同时 获得 
自身 的 快速 成 长 。 无 论 从 理论 上 来 讲 , 还 是 从 现实 情况 来 看 ,生物 
信息 学 都 还 是 一 门 相当 年 轻 的 学 科 , 它 的 实质 就 是 利用 计算 机 科 
学 和 网 络 技术 来 解决 生物 学 问题 . 它 的 诞生 和 发 展 是 应 时 所 需 ,是 
历史 的 必然 ,并 且 已 经 悄然 渗透 到 生命 科学 的 每 一 个 角落 .以 至 于 
在 整个 科学 界 意识 到 它 的 存在 之 前 ,相关 学 科 的 研究 者 就 已 经 离 
不 开 它 了 。 
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二 十 世纪 末期 ,生命 科学 技术 的 迅猛 发 展 , 无 论 从 数量 上 还 是 
在 质量 上 ,都 极 大 地 丰富 了 生命 科学 的 数据 资源 。 数 据 资源 的 急剧 
膨胀 首先 迫使 人 们 不 得 不 考虑 寻求 一 种 强 有 力 的 工具 ,在 有 效 地 
组 织 数据 的 同时 ,有 利于 对 已 知 生 物 学 知识 的 储存 和 进一步 地 加 
工 利用 。 在 大 量 多 样 化 的 生物 学 数据 资源 中 ,必然 蕴含 着 许多 重要 
的 生物 学 规律 .这 些 规 律 是 我 们 解决 许多 生命 之 谜 的 关键 所 在 . 然 
而 ,继续 沿用 传统 手段 以 人 脑 来 分 析 如 此 庞杂 的 数据 是 不 可 能 的 。 
人 们 同样 需要 寻求 一 种 强 有 力 的 工具 去 协助 人 脑 完成 这 些 分 析 工 
作 。 可 以 说 ,伴随 着 二 十 一 世纪 的 到 来 ,生命 科学 的 重点 和 潜在 的 
突破 点 已 经 由 上 个 世纪 的 试验 分 析 和 数据 积累 ,转移 到 数据 分 析 
及 其 指导 下 的 实验 验证 上 来 。 生 命 科 学 也 正在 经 历 着 一 个 从 分 析 
还 原 思 维 到 系统 整合 思维 的 转变 。 

那么 ,我 们 所 寻求 的 那 种 强 有 力 的 数据 处 理 分 析 工 具 ,就 成 为 
未 来 生命 科学 的 关键 所 在 ;伴随 着 生命 科学 这 一 需求 的 加 剧 ,以 数 
据 处 理 分 析 为 本 质 的 计算 机 科学 技术 和 网 络 技术 获得 了 突飞猛进 
的 发 展 ,而 自然 地 成 为 生命 科学 家 的 必然 选择 。 计 算 机 科学 技术 和 
网 络 技术 正 日 益 渗 透 到 生命 科学 的 方方面面 ,一 门 讼 新 的 、 拥 有 巨 
大 发 展 潜力 的 生物 信息 学 也 就 悄然 而 坚定 地 发 展 起 来 了 ,可 以 说 ， 
历史 必然 性 地 选择 了 生物 信息 学 一 一 生命 科学 与 计算 科学 的 融合 
体 一 一 作为 新 一 代 生 物 科学 研究 的 重要 工具 。 

生物 信息 学 (Bioinformatics) 这 一 名 词 的 由 来 ,还 要 从 八 十 年 
代 末 期 说 起 。 美 国 佛罗里达 州立 大 学 超级 计算 机 计算 研究 所 的 林 
华安 博士 认识 到 将 计算 机 科学 与 生物 学 结合 起 来 的 重要 意义 , 遂 
开始 留意 为 这 一 新 的 领域 构思 一 个 合适 的 名 称 。 考 虑 到 与 佛 罗 里 
达州 立 大 学 大 型 计算 机 计算 研究 所 的 关系 ,起 初 , 他 使 用 的 是 
"CompBio", 当时 ,这 一 机 构 支持 由 他 主办 的 一 系列 “生物 信息 学 ” 
的 会 议 ;之 后 ,他 又 将 其 改 为 兼 具 法 国 风情 的 “bioinformatique”。 
因 其 拼写 看 起 来 似乎 有 些 古 怪 , 不 久 , 他 便 进一步 把 它 更 改 为 
“bio-informatics (或 bio/informatics)”。 但 由 于 当时 的 电子 邮件 系 
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统 与 今日 不 同 ,该 名 称 中 的 “一 或 “/? 符 号 经 常会 引起 许多 系统 问 
题 。 于 是 , 林 博 士 又 将 其 去 除 . 今天 ,我 们 所 看 到 的 
“bioinformatics ?就 这 样 正式 诞生 了 。 林 华安 博士 也 因此 赢得 了 
“生物 信息 学 之 父 ” 的 美誉 。 

一 、 生 物 信息 学 的 定义 

生物 信息 学 主要 是 由 分 子 生物 学 与 信息 学 、 计 算 机 技术 、 数 
学 、 物 理学 等 学 科 交叉 结合 的 产物 。 对 于 这 样 一 门 年 轻 的 边缘 科 
学 ,不 同 的 学 者 对 它 的 定义 不 尽 相同 ( 见 附录 二 ) 有 不 严格 的 定义 
称 之 为 :分 子 生 物 学 与 计算 生物 学 的 交叉 学 科 。 国 外 学 者 一 般 认 
为 , 它 是 对 现代 分 子 生物 学 和 生物 化 学 技术 带 来 的 不 断 增 加 的 复 
杂 的 资料 进行 分 析 、 组 织 并 使 之 系统 化 的 一 门 科学 。 也 有 人 认为 ， 
生物 信息 学 应 含有 生物 系统 内 信息 链 的 内 容 , 它 主要 指 的 是 贮存 
F DNA 或 RNA 中 的 信息 ,表现 为 核 苷 酸 的 序列 并 能 通过 翻译 表 
达 出 重要 的 生命 大 分 子 一 一 蛋白 质 。. 对 这 部 分 内 容 的 研究 ,无疑 是 
生物 信息 学 在 应 用 上 的 一 个 很 重要 的 方面 。 我 们 认为 生物 信息 学 
的 含义 是 基于 计算 机 和 互联 网 的 应 用 和 信息 科学 的 知识 方法 对 生 
物 信息 进行 收集 ,整理 .分 析 研 究 . 处 理 和 应 用 的 一 门 交叉 学 科 。 今 
天 已 经 认识 到 :一 项 研究 欲 更 加 深刻 地 反映 生物 的 本 质 规律 ,需要 
用 到 这 门 新 兴 的 学 科 。 例 如 ,基因 密码 的 含义 与 相对 应 的 生物 机 体 
生理 特点 之 间 的 关系 ,人 脑 的 研究 .基因 与 意识 及 心理 行为 的 关 
系 、 系 统 遗传 学 家 对 各 物种 之 间 内 在 关系 的 研究 等 等 ,这 类 研究 均 
需 在 计算 机 软件 技术 、 各 种 不 同类 型 的 生物 学 数据 库 的 辅助 下 完 
成 .又 如 ,结构 生物 信息 学 对 靶 蛋 白质 活性 位 点 精细 结构 的 描述 可 
为 新 药 的 模拟 设计 提供 良好 的 基础 总 之 ,生物 系统 的 复杂 性 需要 
生物 学 方法 与 计算 技术 的 结合 。 所 以 ,生物 信息 学 是 一 门 建立 \ 管 
理 并 运用 生物 信息 数据 库 研 究 生命 现象 ,并 最 终 模拟 出 生命 有 机 
体 复杂 性 的 科学 。 

一 门 学 科 的 建立 除了 有 应 用 上 的 需求 外 ,还 应 当 有 相应 的 理 
CX. 信息 学 理论 的 发 展 是 其 重要 的 支柱 之 一 。 此 外 ,计算 机 凭 
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借 其 强大 的 运算 分 析 功 能 介入 到 生物 学 的 研究 中 ,使 研究 手段 T 
具 方 法 迈 上 了 新 台阶 。 美 国学 者 H. Rashidi fl L.K. Buehler 就 
认为 生物 信息 学 是 建立 在 这 样 一 个 假设 的 基础 上 的 : 即 基因 结构 、 
基因 在 基因 组 中 的 排列 位 置 、 蛋 白质 的 功能 以 及 在 机 体 中 引起 能 
量 代谢 、 繁 殖 和 构成 诸如 身材 、 体 型 等 蛋白 质 的 相互 作用 之 间 存 
在 着 一 个 分 等 级 的 关系 。 而 对 其 相互 关联 的 研究 ， 使 人 们 意识 到 
计算 方法 的 介入 为 此 提供 了 一 个 良好 的 平台 。 

二 、 生 物 学 的 发 展 与 生物 信息 学 

二 十 世纪 初 ， 人 们 用 有 机 化 学 的 方法 研究 三 大 物质 的 代谢 途 
径 ， 研 究 酶 的 组 成 及 生理 作用 ， 等 等 。 那 时 候 ， 生 物化 学 家 没有 
分 子 生 物 学 、 基 因 的 知识 ， 并 不 知道 核酸 是 生命 的 遗传 单位 。 他 
们 的 研究 是 对 各 种 实验 现象 的 观测 和 记录 。 而 时 至 今日 ， 人 们 已 
经 可 以 在 电脑 前 完成 基因 测序 、 基 因 筛 选 、 计 算 机 识别 蛋白 质 功 
能 、 计 算 机 模拟 蛋白 质 三 维 结构 以 及 新 药 设计 等 工作 ， 发 展 出 计 
算 和 实验 方法 相 结合 的 新 的 生物 学 研究 模式 。 下 面试 举 一 例 ， 来 
说 明生 物 信 息 学 在 这 一 新 模式 中 的 用 途 。 

基因 是 生命 的 遗传 单位 。 在 复制 时 ,保持 基因 中 分 子 信息 的 
严密 性 和 准确 性 是 十 分 重要 的 。 我 们 在 研究 某 个 基因 突变 与 肿瘤 
发 生 的 关系 时 ， 该 基因 的 克隆 是 首先 应 完成 的 ， 因 为 这 是 获得 核 
酸 序列 及 寻找 调节 因子 的 第 一 步 。 首先 , 将 我 们 需要 的 DNA 片段 
从 有 关 的 基因 组 中 分 离 出 来 ， 然 后 将 这 段 基因 插入 到 一 个 载体 
DNA 中 , 从 而 制 成 重组 DNA , 按 生物 进化 的 观点 , 所 有 生命 体 在 
遗传 上 是 有 密切 的 相关 性 的 ， 所 以 人 类 基因 在 其 他 动物 体 或 微 生 
物体 内 操纵 复制 是 完全 有 可 能 的 。 由 此 , 人 们 将 上 述 重组 DNA 置 
人 细菌 体内 繁殖 ， 从 而 达到 基因 克隆 的 目的 并 可 复制 出 大 量 的 基 
因 找 贝 。 应 用 这 种 方法 复制 基因 、 36 DNA 简单 而 有 效 , 而 且 避 
兔 了 为 纯化 DNA 或 蛋白 质 而 需 获取 大 量 的 人 体 组 织 标本 的 过 
程 。 

基因 克隆 完成 后 ， 即 可 对 基因 测序 。 通 过 基因 序列 可 预测 其 
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相应 蛋白 质 的 结构 和 功能 。 这 些 工作 如 今 已 可 在 计算 机 辅助 下 完 
成 .而 重组 DNA 又 可 用 来 合成 相应 的 蛋白 质 , 对 后 者 进行 生物 化 
学 的 检测 分 析 ， 以 进一步 明确 其 结构 、 功 能 及 在 致 病 过 程 中 的 作 
用 。 对 肿瘤 基因 及 遗传 性 疾病 的 研究 中 ， 为 了 明确 该 致 病 基因 在 
基因 组 中 的 定位 ， 常 常 需要 获得 携带 有 突变 基因 的 个 体 样本 及 正 
常人 的 样本 。 在 实践 中 ， 对 一 定数 量 的 两 种 样本 的 对 比分 析 可 运 
用 相应 的 计算 工具 。 这 种 工具 是 按 医 学 研究 的 目的 而 建立 起 来 的 
生物 学 数据 库 ， 并 经 过 不 断 地 调整 编辑 而 成 。 毫 无 疑问 ， 这 一 编 
辑 过 程 也 促进 了 人 们 对 疾病 本 质 及 其 遗传 本 质 的 理解 。 

二 十 世纪 八 十 年 代 后 期 ， 计 算 机 技术 进入 快速 发 展 时 期 ， 此 
后 的 互联 网 以 更 高 的 速度 在 全 球 铺展 开 来 。 与 此 同时 ， 一 项 庞大 
的 人 类 基因 组 计划 及 其 他 的 生命 体 基 因 组 研究 业已 全 面 展开 。 这 
些 均 是 在 生物 信息 学 形成 和 发 展 中 具有 决定 性 的 事件 。 在 基因 组 
计划 中 ， 人 们 更 关注 基因 的 核酸 序列 。 在 获取 基因 序列 并 揭示 其 
中 的 生物 信息 的 过 程 中 ， 生 物 信息 学 是 重要 的 分 析 工 具 。 

当前 ， 分 子 生物 学 与 生物 信息 学 的 结合 愈 发 紧密 。 后 者 为 前 
者 提供 了 新 的 研究 手段 和 方法 , 如 今 已 在 基因 克隆 、 核 酸 测序 、 基 
因 定 位 等 方面 有 着 广泛 地 应 用 。 在 人 类 基因 组 研究 及 后 基因 组 的 
研究 工作 中 , 效率 是 经 常会 被 提 及 的 因素 之 一 。 在 DNA 的 序列 研 
究 中 ， 任 何 一 种 计算 方法 都 比 实验 分 析 要 迅速 和 廉价 ， 且 计算 分 
析 为 实验 分 析 提供 了 互补 的 预测 性 信息 。 现 有 的 算法 在 利用 已 知 
的 生物 学 知识 的 基础 上 ， 已 经 完成 了 不 少 工 作 。 可 以 预见 : 在 未 
来 ， 对 生物 学 有 了 更 深入 的 研究 之 后 ， 计 算 分 析 学 家 和 实验 生物 
学 家 会 有 更 频繁 更 深入 的 合作 ,这 一 领域 会 有 更 为 显著 的 进步 ,以 
计算 和 实验 相 结合 的 新 生物 学 ， 已 快 步 向 我 们 走 来 。 

三 、 基 因 组 学 、 蛋 白质 组 学 与 生物 信息 学 

如 今 ， 基 因 组 学 、 蛋 白质 组 学 已 是 生命 科学 研究 中 最 重要 的 
内 容 之 一 。 传统 上 , 要 获得 一 个 基因 序列 ， 需 要 mRNA 的 分 离 或 
检测 蛋白 质 的 氨基 酸 序列 。 其 后 , 通过 诸如 蛋白 电泳 等 检测 手段 ， 
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探寻 该 基因 及 其 相关 蛋白 质 与 生物 体 的 发 生 、 发 育 、 老 化 及 疾病 
发 生 之 间 的 联系 。 基 因 的 组 成 、 表 达 等 与 生物 体 的 生理 功能 相关 
的 信息 ， 在 阅读 理解 基因 图 谱 时 ， 有 重要 的 意义 。 现 代 基 因 组 计 
划 有 两 方面 的 工作 : 其 一 ， 基 因 组 结构 是 与 一 定 的 生理 功能 相关 
的 。 所 以 ， 人 们 希望 通过 研究 一 个 生命 体 的 全 部 基因 组 序列 ， 以 
帮助 了 解 其 生物 学 特点 ;其 二 ,高 等 生物 含有 大 量 的 非 编 码 DNA， 
直到 最 近 人 们 才 对 其 功能 及 存在 的 意义 有 了 初步 的 了 解 . 在 过 去 ， 
人 们 采用 功能 性 的 检测 方法 不 能 获得 非 编 码 DNA 的 序列 信息 ， 
而 未 来 的 研究 会 进一步 加 深 对 它 的 认识 。 

科学 家 的 研究 是 从 DNA 开始 的 ， 但 在 生物 体内 它 只 是 遗传 
信息 的 载体 . 因为 DNA 在 体外 是 不 能 自我 复制 的 , 所 以 核酸 并 不 
是 单独 完成 遗传 使 命 的 ,DNA 上 所 携带 的 遗传 信息 必须 首先 被 解 
读 。 在 细胞 中 ， 这 一 工作 是 由 一 些 蛋白 质 承 担 的 ， 诸 如 存在 于 胞 
核 或 胞 浆 中 的 蛋白 质 及 酶 等 等 ， 都 是 解读 遗传 信息 的 工具 ， 而 且 
在 胚胎 发 生 的 早期 就 起 着 重要 的 作用 。 尽 管 基因 成 对 出 现在 染色 
体 上 ， 但 表达 的 只 有 一 条 ， 它 来 自 父 方 或 源 于 母 方 。 所 以 ， 并 不 
仅仅 只 有 DNA 序列 是 遗传 信息 。 染色 体 的 结构 ，DNA 与 其 表达 
的 蛋白 质 间 的 相互 关系 以 及 其 构 型 组 合 也 是 信息 的 一 部 分 。 一 种 
影响 或 决定 子 代 中 母系 抑或 是 父系 的 基因 激活 的 表达 机 制 叫 遗 传 
印迹 (Genetic Imprinting) 。 要 搞 清 楚 这 一 现象 及 其 基因 剂量 效应 
(一 个 基因 能 表达 多 少 蛋 白质 是 与 其 相关 基因 有 联系 的 )， 就 必须 
研究 发 生 在 细胞 内 的 整个 遗传 过 程 的 时 空调 控 。 因 此 ， 有 人 认为 
人 类 基因 组 计划 一 旦 完成 ， 接 下 来 的 工作 将 由 分 子 生物 学 实验 室 
转 入 由 电子 仪器 组 成 的 实验 室 。 在 那里 ， 基 因 的 各 种 信息 会 轻松 
地 获得 ， 这 有 利于 确定 基因 在 发 育 、 衰 老 及 疾病 发 生 等 过 程 中 的 
作用 。 

蛋白 质 组 学 是 基因 组 计划 完成 后 或 同时 开展 的 重要 研究 领域 
之 一 。 要 明确 各 种 器 官 、 组 织 、 细 胞 以 及 正常 和 疾病 组 织 中 多 种 
蛋白 质 表达 谱 的 变化 ， 即 蛋白 质 的 大 规模 识别 和 定性 ， 需 要 有 强 
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有 力 的 分 析 工 具 。2D 凝 胶 电 沪 是 十 分 有 用 的 方法 ,在 2D 凝 胶 电 
泳 的 结果 分 析 过 程 中 离 不 开 生物 信息 学 ， 后 者 使 这 一 分 析 过 程 自 
动 化 。 本 书 有 专门 章节 介绍 生物 信息 学 在 蛋白 组 学 中 的 应 用 。 

当前 ， 数 据 库 内 容 的 增加 及 变化 都 十 分 迅速 和 频繁 。 因 为 每 
天 都 可 能 有 新 提交 的 数据 加 入 其 中 ， 所 以 数据 库 的 目录 可 能 每 天 
都 在 更 新 。 这 更 有 利于 研究 机 构 的 获取 和 利用 。 有 资料 显示 : 在 
1998 年 4 月 包括 83 个 物种 的 基因 组 计划 已 完成 了 21 个 物种 的 
测序 ， 其 中 大 部 分 为 微生物 。 这 一 工作 采用 了 自动 克隆 和 聚合 酶 
链 式 反应 (PCR) 完成 DNA 的 扩 增 及 测序 。 这些 方法 可 以 把 由 盲 
法 产生 的 随机 DNA 片段 重建 为 无 间 沟 (gap) 的 连续 序列 ， 并 最 
终 得 到 全 部 基因 组 的 所 有 碱 基 序 列 .在 进行 基因 组 计划 的 过 程 中 ， 
每 天 都 有 大 量 的 信息 出 现 ， 并 进入 到 数据 库 中 。 


基因 组 研究 院 (The Institute for Genomic Research, TIGR) 创建 于 1992 
年 , 是 一 个 非 赢 利 性 的 研究 院 。 它 位 于 美国 马里 兰州 的 Rockville, 与 美国 国 
立 卫生 院 (NIH)、 约 输 一 元 普 金 斯 大 学 、 马 里 兰 大 学 及 其 它 研究 所 、 生 物 技 
术 公司 毗邻 。 占 地 12 公顷 , 有 50000 平方 英尺 的 实验 室 及 办 公 区 域 。 该 研究 
院 有 大 型 的 DNA 测序 实验 室 和 与 生物 信息 学 、 生 物化 学 和 分 子 生物 学 相关 
的 现代 化 设备 。 它 从 一 开始 就 利用 网 络 成 长 起 来 。 对 于 许多 科学 家 来 说 ， 
TIGR 使 他 们 开始 真正 认识 了 基因 组 计划 , 并 获得 了 一 种 新 的 大 批量 测序 的 
方法 。TIGR 的 工作 促进 了 测序 程序 及 数据 分 析 的 发 展 。 类 似 TIGR 这 样 的 
研究 院 和 组 织 还 有 一 些 , 他 们 在 网 络 上 提供 的 信息 数量 之 大 令 人 惊讶 .TIGR 
的 研究 对 象 是 病毒 、 真菌 、 致 病菌 、 原生质 、 真 核 生物 以 及 人 类 的 基因 组 ,并 
对 基因 产物 的 功能 、 结 构 进行 比较 分 析 (摘自 http://www. tigr. org/ 
about/)。 


TIGR 率先 发 展 了 大 量 复制 DNA 的 必需 技术 ， 以 及 EST 
(Expressed Sequence Tag ， 表 达 序 列 标签 ) 测序 计划 。EST 文件 
提交 格式 简单 、 易 于 快速 处 理 ， 因 此 每 天 提交 进入 数据 库 的 数量 
级 可 以 达到 数 千 个 , 峰值 期 可 达 每 周 100, 000 个 提交 量 。 这 种 测 
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序 形式 已 在 一 定 程度 上 影响 了 生命 科学 界 的 工作 方式 。 因 为 现今 
大 多 数 的 期 刊 已 不 再 刊登 完整 的 序列 数据 ， 而 只 标明 其 序列 在 数 
据 库 中 的 序号 。 研 究 者 在 公开 发 表 文 章 时 要 向 公共 数据 库 提交 其 
研究 结果 ， 这 已 成 为 一 条 准则 。 而 且 ， 有 些 大 型 基因 研究 中 心 规 
定 新 发 现 序列 的 公开 应 先 于 论文 的 发 表 。 这 些 情况 都 使 得 相关 数 
据 库 的 内 容 呈 指数 级 上 升 ， 同 时 也 使 数据 信息 的 整理 、 分 析 、 利 
用 显得 十 分 重要 。 

最 初 ， 生 物 信息 学 就 是 为 来 自 不 同 国家 、 不 同 研究 组 织 之 间 
的 信息 交流 服务 的 ， 是 他 们 相互 合作 、 信 息 共享 的 方式 之 一 。 随 
着 数据 库 的 集中 合并 及 网 络 交流 的 迅猛 发 展 ， 它 不 仅 成 为 了 业内 
人 士 主 要 的 交流 方式 ， 而 且 很 快 转变 为 一 门 独立 的 学 科 。 特 别 是 
人 类 基因 组 计划 的 实施 ， 更 多 的 愈 来 愈 强大 的 克隆 和 测序 技术 不 
断 出 现 , 直接 促进 了 生物 信息 学 的 发 展 。 在 这 项 庞大 的 计划 中 , E 
际 间 的 合作 成 为 了 必然 。 由 此 而 来 ， 出 现 了 拥有 各 种 数据 库 的 公 
立 或 私立 的 组 织 ， 他 们 的 数据 库 为 整个 基因 组 测序 、 基 因 定 位 以 
及 在 细胞 或 分 子 水 平 上 寻找 DNA 序列 信息 与 结构 功能 的 关系 提 
供 了 实用 的 工具 和 便捷 的 服务 。 

其 后 ， 工 商 企 业界 及 金融 投资 者 逐渐 认识 到 生物 信息 的 处 理 
和 出 售 极 具 潜在 的 利润 价值 。 他 们 的 介入 使 得 数据 库 的 建立 、 完 
善 有 了 充足 的 资金 来 源 ,并 且 在 其 未 来 发 展 中 扮演 着 重要 的 角色 。 
潜在 的 利润 和 商机 ， 又 促进 了 各 种 基因 研究 工作 的 深入 并 使 其 竞 
争 日 趋 激烈 。 

四 、 国 内 生物 信息 学 现状 及 展望 

国际 上 ， 欧 美 等 国家 在 生物 信息 学 的 研究 和 应 用 方面 已 经 有 
了 较 长 时 间 的 积累 。 国 内 对 生物 信息 学 领域 也 越 来 越 重 视 ， 在 一 
些 著名 院士 和 教授 的 带领 下 ,在 各 自 领 域 取得 了 一 定 的 成 绩 。2001 
年 4 月 在 北京 召开 了 中 国 首届 生物 信息 学 大 会 ， 参 会 人 员 遍 及 全 
国 10 多 个 省 市 , 共 600 RA. 此 次 会 议 较为 全 面 地 回顾 了 我 国生 
物 信 息 学 研究 的 现状 。2001 年 10 月 ， 国 家 发 展 计划 委员 会 宣布 ， 
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我 国 将 在 中 国 科学 院 建设 “生物 信息 系统 国家 研究 中 心 ”, 形成 有 
国际 竞争 能 力 的 基因 组 学 、 蛋 白质 组 学 和 生物 信息 学 的 整体 技术 
平台 。 这 将 会 推进 我 国生 物 信息 技术 的 发 展 。 下 面 将 国内 部 分 单 
位 的 生物 信息 学 发 展 状况 做 一 简单 的 介绍 。 

L 中 国 科学 院 基因 组 信息 学 中 心 生 物 信 息 学 平台 

中 国 科学 院 基因 组 信息 学 中 心 设 有 专门 的 生物 信息 室 ， 配 备 
有 由 国家 智能 计算 机 研究 开发 中 心 研制 的 曙光 3000 型 大 型 计算 
机 。 这 是 目前 国内 性 能 最 高 、 运 算 速度 最 快 的 超级 服务 器 。 该 系 
统 峰值 浮 点 运算 速度 为 每 秒 4032 亿 次 , 内 存 总 量 为 118GB, 磁盘 
总 容量 为 3. 63TB。 它 具 有 先进 的 体系 结构 , 丰富 而 完善 的 软件 系 
统 和 一 大 批 行业 应 用 软件 .该 生物 信息 学 平台 负责 的 项 目 包括 :人 
类 基因 组 计划 中 国 部 分 完成 图 、 嗜 热 菌 基因 组 、 螺 旋 薄 基因 组 、 超 
级 杂交 水 稻 基 因 组 工作 框架 图 和 中 华 民族 基因 组 及 疾病 相关 基因 
的 多 态 性 研究 等 。 

2. 北京 大 学 生物 信息 学 服务 器 

北京 大 学 生物 信息 学 服务 器 是 在 罗 静 初 和 顾 孝 诚 教授 领导 下 
建立 的 ， 由 北京 大 学 附属 的 分 子 设计 实验 室 和 物理 化 学 研究 所 维 
护 。 它 是 国内 第 一 家 生物 信息 学 网 站 ， 设 有 多 个 国外 著名 分 子 生 
物 学 数据 库 的 镜像 站 点 ,如 :Protein Data Bank (PDB) , Structural 
Classification of Protein (SCOP), Protein Information Resources 
(PIR) , SWISS-PROT, ENZYME, PROSITE, BLOCKS 等 , 在 
国内 查询 这 些 数据 库 亦 非常 方便 快捷 。 他 们 开展 的 项 目 包 括 蛋白 
质 结构 预测 、 以 结构 为 基础 的 药物 设计 、 和 蛋白 建 模 和 设计 等 方向 
的 研究 。 

3. 联众 研究 院 生物 信息 分 析 平 台 

该 生物 信息 分 析 平 台 隶 属于 上 海 复旦 大 学 ， 他 们 建立 了 自己 
的 EST 数据 库 、Cluster 数据 库 (UniGene) 和 全 长 基因 数据 库 ， 
并 从 国外 引进 了 GenBank、SWISS-PROT、EMBL、OMIM、 
UniGene 等 数据 库 。 每 天 能 开展 对 约 1500 个 序列 进行 公开 数据 库 
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的 查询 、 全 长 基因 的 识别 、 全 长 基因 编码 蛋白 的 结构 与 功能 预测 、 
部 分 全 长 基因 的 染色 体 定位 等 方面 的 工作 。 对 外 提供 的 生物 信息 
学 服务 包括 : 引物 设计 、 核 酸 一 级 结构 、 同 源 核酸 序列 数据 库 搜 
索 分 析 、ORF 预测 、 氨 基 酸 组 成 、 理 化 特性 的 分 析 、 蛋 白质 功能 
域 分 析 、 基 因 或 蛋白 家 族 分 析 、 基 因 组 DNA 的 外 显 子 区 域 预测 、 
ESTs 与 基因 组 序列 比较 、 蛋 白质 亲 水 性 分 析 、 蛋 白质 跨 膜 区 预 
测 、 信 号 肽 预测 、 序 列 抗 原 性 分 析 、 二 级 结构 预测 等 。 他 们 开发 
了 中 文 环境 的 软件 Biolink, 可 以 用 于 计算 和 蛋白质 等 电 点 分 析 、 蛋 
白质 二 级 结构 的 分 析 预 测 、 一 条 或 多 条 序列 在 一 个 或 多 个 核酸 或 
蛋白 序列 库 中 进行 同 源 搜索 、 DNA 限制 性 内 切 酶 图 谱 分 析 、 识别 
基因 ORF 编码 区 、 预测 蛋白 质 在 细胞 内 定位 、 分 析 蛋 白质 的 一 些 
理化 性 质 (如 : 亲 / 政 水 性 、 跨 膜 片断 等 )。 具 有 识别 跨 膜 螺 旋 区 
分 析 氨 基 酸 的 组 成 、PCR 引物 和 杂交 探 针 设计 等 功能 。 

4. 中 国人 民 解 放 军 总 医院 神经 信息 中 心 

该 中 心 成 立 于 2001 年 9 月 .人 类 脑 研究 计划 是 继 人 类 基因 组 
计划 之 后 又 一 国际 性 的 重大 科研 项 目 , 其 核心 是 神经 生物 信息 学 。 
科学 界 认为 该 计划 比 基 因 组 计划 规模 更 大 ， 讼 括 了 更 加 广泛 的 内 
容 。 人 类 脑 研究 计划 的 目标 是 提供 先进 的 信息 学 工具 ， 使 神经 科 
学 家 和 信息 学 家 能 够 将 脑 的 结构 和 功能 研究 结果 联系 起 来 ， 建 立 
数据 库 ， 进 行 搜索 、 比 较 分 析 、 合 成 和 整合 ， 绘 制 出 脑 功能 、 结 
构 和 神经 网 络 图 谱 。 中 国人 民 解 放 军 总 医院 神经 信息 中 心 的 主要 
任务 是 : 建立 神经 信息 工作 平台 ， 为 开展 神经 信息 学 研究 提供 必 
要 的 条 件 。 其 中 包括 : 在 国内 6 大 城市 11 个 研究 单位 开通 神经 信 
息 电子 网 络 ， 进 行 网 上 信息 交流 和 科研 协作 ; 与 国际 神经 信息 电 
子 网 络 接轨 ， 引 进 和 推广 全 球 性 “人 类 脑 计划 ”的 科研 成 果 ; 开 
展 神经 信息 科研 工作 ， 组 织 全 国 性 脑 研 究 计 意 '; HEURES TAE 
组 ， 以 代表 中 国 加 入 全 球 神经 信息 学 工作 组 织 ， 参 与 全 球 人 类 脑 
计划 的 研究 工作 ; 提供 神经 信息 服务 。 

虽然 国内 生物 信息 学 的 发 展 非常 快 ， 但 总 体 来 讲 与 国际 水 平 
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差距 还 比较 大 。 一 方面 表现 为 相对 于 国内 生物 医药 科学 的 研究 与 
开发 ， 对 生物 信息 学 的 研究 和 服务 的 需求 滞后 ; 另 一 方面 是 ， 真 
正 开 展 生物 信息 学 服务 的 公司 相对 较 少 。 仅 有 的 几 家 科研 机 构 主 
要 开展 生物 信息 学 的 理论 研究 ， 而 声称 提供 生物 信息 学 服务 的 公 
司 所 提供 的 服务 也 仅 局 限于 简单 的 计算 机 辅助 分 子 生 物 学 实验 设 
计 ， 而 且 服 务 体系 并 不 完善 ， 这 就 与 欧美 发 达 国家 有 了 较 大 的 差 
WE. 

生物 信息 学 的 产业 特点 是 投资 少 、 见 效 快 、 效 益 大 ， 适 合 我 
国 的 现实 条 件 。 如 果 从 互联 网 上 源源 不 断 地 采集 数据 ， 然 后 进行 
分 析 、 归 类 与 重组 ， 发 现 新 线索 、 新 现象 和 新 规律 ， 用 以 指导 实 
验 工 作 的 设计 ， 这 是 一 条 既 快 又 省 的 科研 线路 ， 可 以 避免 不 必要 
的 重复 ， 提 高 我 国生 命 科学 的 研究 水 平 。 其 关键 在 于 加 速 培养 一 
批 在 数学 、 物 理 、 计 算 机 科学 和 分 于 生物 学 方面 均 有 造 诺 的 跨 学 
科 青 年 人 才 。 如 能 充分 发 挥 现 有 人 才 的 潜力 ， 进 一 步 培养 大 批 生 
物 信息 学 的 专业 人 员 ， 才 能 迎接 21 世纪 的 挑战 。 


第 二 节 计算 机 在 生物 学 及 医学 领域 的 应 用 


一 、 生 物 学 、 医 学 与 计算 机 

众所周知 ,技术 的 进步 对 科学 的 发 展 起 到 了 重要 的 促进 作用 。 
在 最 近 的 二 十 年 ， 这 一 趋势 更 加 明显 。 例 如 ， 纳 米 ， 这 一 奇妙 世 
界 的 物理 尺度 ， 也 是 生命 分 子 本 身 各 种 组 成 部 分 的 尺度 。 纳 米 技 
术 是 一 种 新 近 发 展 起 来 的 对 单个 分 子 进行 操作 的 技术 ， 现 已 成 为 
一 个 时 瞩 的 研究 领域 。 该 技术 显示 出 : 将 以 单 分 子 机 械 装置 为 目 
Ps. 促进 医疗 和 电子 技术 的 微型 化 。 又 如 ， 材 料 科学 把 化 学 与 生 
物化 学 有 机 地 结合 在 一 起 。 在 生命 科学 领域 ， 生 物 样品 的 准备 过 
程 中 发 展 起 来 的 荧光 染色 技术 ,引起 了 细胞 生物 学 和 DNA 操作 
技术 的 革命 (例如 : Affymetrix 公司 的 DNA 芯片 技术 ); 可 视 化 
的 脑 检测 技术 又 使 脑 科学 的 研究 进入 了 一 个 新 的 层次 。 化 学 和 生 


第 一 章 概 de “13。 


物 学 侠 究 方法 的 结合 又 开拓 出 一 些 新 的 研究 领域 (如: 组 织 工 
BO. 给 二 者 的 发 展 注入 了 活力 。 同 样 的 , 计算 机 技术 在 生物 医学 
领域 也 有 很 广泛 的 应 用 。 

应 用 数学 及 计算 机 科学 是 现代 生物 学 的 重要 研究 工具 。 假 如 
没有 计算 机 对 信息 的 存储 和 读 取 ， 没 有 数据 装载 和 统计 分 析 ， 没 
有 计算 机 模拟 系统 ， 就 不 可 能 产生 现代 分 子 生物 学 . 可 见 ， 计 算 
机 在 这 一 领域 发 挥 了 重要 的 作用 。 从 软件 设计 、PC 机 的 应 用 到 互 
联网 的 交流 ， 都 充分 利用 了 计算 机 技术 。 而 且 ， 几 乎 在 所 有 的 科 
研 活动 中 ， 它 都 发 挥 了 日 趋 重要 的 作用 。 在 未 来 ， 这 一 作用 将 更 
为 明显 。 

在 基础 医学 研究 中 ， 实 验 就 是 在 特定 的 时 间 内 通过 一 系列 的 
技术 手段 检验 一 种 观点 或 得 到 新 发 现 的 过 程 ， 其 结果 如 何 并 非 出 
自 偶 然 ， 而 是 由 事物 的 必然 性 决定 的 。 现 在 认为 ， 计 算 机 工具 在 
实验 的 设计 、 执 行 和 分 析 研 究 过 程 中 可 以 起 到 核心 的 作用 。 计 算 
机 的 介入 并 没有 改变 科学 思想 本 身 ， 也 没有 改变 围绕 着 科学 发 现 
与 错误 模型 之 间 的 假设 与 争论 ， 但 却 改变 了 科学 研究 的 核心 内 容 

具体 实验 的 本 身 。 计 算 机 可 以 计数 培养 下 中 的 细胞 ， 测 量 显 
微 镜 下 的 各 种 组 织 切片 中 的 细胞 核 大 小 ， 记 录 对 慢性 疼痛 敏感 的 
神经 元 的 电 活动 ， 读 取 电泳 凝 胶 上 可 记录 于 X 光 底片 上 的 DNA 
序列 。 其 他 不 可 缺少 计算 机 的 实验 室 设备 有 : 流 式 细胞 仪 、 远 程 
病理 诊断 系统 .DNA 芯片 分 析 仪 .DNA BEBE BURR BEG SE. 计算 
机 可 以 帮助 人 们 快速 而 精确 地 记录 许多 重要 数据 ， 明 显 提高 了 实 
验 的 精确 性 。 

当然 ， 实 验 的 精确 性 并 不 完全 取决 于 计算 机 ， 而 主要 是 实验 
仪器 的 质量 。 如 : 电镜 下 精确 切割 冰冻 细胞 样品 、 把 微 玻璃 管 插 
和 干细胞 转移 细胞 核 以 培育 转基因 鼠 、 或 者 测量 脑 组 织 中 单个 神 
经 元 的 电 活动 ， 都 需要 设计 制造 出 高 质量 的 合金 。 计 算 机 在 生命 
科学 研究 中 的 作用 依然 是 控制 、 运 算 、 数 据 分 析 及 存储 。 计 算 机 
的 数字 化 记录 及 其 易于 复制 的 特点 ， 极 大 地 提高 了 生物 数据 的 存 
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储量 。 

临床 医学 是 计算 机 技术 的 另 一 个 受益 者 。 两 种 成 功 的 无 创 诊 
断 技 术 一 一 核磁 共振 成 像 和 超声 波 检 查 ， 均 是 有 效 地 利用 了 所 有 
物质 中 特异 性 原子 或 分 子 的 物理 特性 而 成 像 的 ， 计 算 机 技术 在 其 
中 起 到 了 重要 的 作用 。 另 外 ， 计 算 机 专家 系统 的 发 展 和 使 用 ， 将 
会 使 常规 医疗 变 得 愈 来 愈 方便 ， 且 治疗 的 成 功率 也 愈 来 愈 高 。 在 
临床 科研 及 临床 诊治 中 ， 精 密 的 检验 和 治疗 仪器 的 使 用 都 离 不 开 
计算 机 。 现 代 医 学 借助 了 许多 具有 分 析 功能 的 仪器 及 新 颖 的 实用 
医疗 操作 技术 辅助 医生 诊治 疾病 。 例 如 : 用 来 监测 血糖 水 平 的 生 
物 传感器 、 用 作 微血管 介入 技术 的 导管 等 等 ， 都 与 计算 机 技术 相 
关 。 目前 , 国外 医学 领域 的 科研 医疗 与 计算 机 的 联系 已 十 分 密切 ， 
甚至 已 呈现 出 较 强 的 依赖 性 。 尤 其 有 代表 性 的 是 “千年 虫 ” 问题 ， 
在 1999 年 底 给 发 达 国 家 的 医学 界 也 带 来 了 不 少 麻烦 和 干扰 。 

生物 信息 学 是 计算 机 与 生物 学 紧密 结合 的 产物 。 人 类 基因 组 
计划 旨 在 绘制 一 幅 染 色 体 图 谱 。 也 正 是 由 于 这 一 计划 中 产生 的 大 
量 序列 信息 ， 大 大 地 促进 了 生物 信息 学 的 发 展 。 而 神经 生物 学 正 
在 绘制 由 大 脑 解剖 及 其 细胞 组 分 构成 的 图 谱 。 大 脑 是 一 个 十 分 复 
杂 的 器 官 ， 对 它 的 研究 意义 重大 。 但 利用 传统 技术 研究 多 年 ， 进 
展 有 限 。 在 神经 生物 学 家 、 认 知 科 学 家 及 心理 学 家 的 携手 合作 下 ， 
一 门 新 兴 的 边缘 学 科 一 一 神经 生物 信息 学 出 现 了 。 这 一 领域 实际 
上 也 属于 生物 信息 学 的 范畴 。 这 是 研究 大 脑 与 神经 元 结构 和 功能 
的 新 途径 ， 是 理解 以 网 络 形式 存在 的 复杂 的 神经 系统 的 新 途径 。 

二 、 计 算 机 算法 

在 预计 计算 机 解决 某 一 问题 需要 多 少时 间 时 ， 这 里 面 其 实 包 
含 了 两 部 分 内 容 : 其 一 ， 计 算 机 自身 计算 时 所 需要 的 时 间 ; 其 二 ， 
分 析 指 令 的 时 间 ， 这 是 人 为 干预 占用 的 时 间 。 所 以 ,现在 的 许多 
自动 程序 软件 以 培养 计算 机 的 自主 决定 能 力 为 目标 ， 以 避免 人 的 
操作 占用 了 较 多 的 时 间 。 这 样 更 有 利于 计算 机 在 短 时 间 内 处 理 大 
量 的 数据 。 计 算 机 是 以 其 特殊 的 专 有 系统 作为 其 运行 的 基础 ， 这 
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一 系统 可 完成 一 项 或 多 项 计算 量 很 大 的 任务 。 过 去 ， 许 多 需要 人 
们 操作 干预 完成 的 工作 ， 现 在 已 经 可 由 具有 学 习 功能 的 神经 网 络 
(neural networks, NNs) 作出 正确 的 答案 。 神经 网 络 尽 管 发 展 前 
景 可 观 ,但 仍 难以 成 功 地 解决 如 何 对 符号 和 记忆 进行 控制 的 问题 ， 
并 且 无 法 训练 NNs 产生 数据 之 外 的 信息 。 一 旦 建立 了 一 种 计算 方 
ik. 并 且 成 功 地 运行 后 , 计算 机 可 不 停 地 重复 这 一 过 程 。 并 且 , 在 
不 断 地 输入 及 输出 的 过 程 中 ,通过 反馈 及 反馈 环 作用 进行 调整 ,以 
适应 预先 设 定 的 要 求 。 除 了 神经 网 络 算法 外 ， 还 有 许多 种 著名 的 
算法 , 如 HMM (Hidden Markov Model) 等 等 应 用 于 生物 信息 学 。 
在 人 类 基因 组 计划 的 序列 拼接 中 ,生物 信息 学 发 挥 了 很 重要 的 作 
Hi. 目前 DNA 自动 测序 仪 的 每 个 反应 只 能 测序 大 约 500bp. 如 何 
将 这 些 序列 片段 拼接 成 完整 的 DNA 顺序 ， 就 成 为 测序 后 的 一 项 
重要 工作 。 传统 的 测序 技术 通常 是 将 克隆 进行 亚 克 隆 ， 并 对 亚 克 
隆 进 行 排序 ， 这 些 工 作 需 要 大 量 的 人 力 物力 。 现 在 ， 生 物 信息 学 
提供 了 自动 而 高 速 地 拼接 序列 的 算法 ， 即 根据 Lander-Waterman 
模型 利用 鸟 枪法 进行 测序 ， 再 将 大 量 随机 测序 的 片段 用 计算 机 进 
行 自动 拼接 。 这 种 技术 不 仅 避 免 了 亚 克 隆 排序 所 需 的 大 量 繁琐 的 
工作 ， 还 使 序列 具有 一 定 的 完 余 性 以 保证 序列 中 每 个 碱 基 的 准确 
性 。 

可 见 ， 计 算 机 算法 所 表现 出 的 优越 性 是 无 可 置疑 的 ， 但 对 其 
不 足 也 应 有 充分 的 了 解 。 比 如 说 ， 一 个 文字 处 理 程序 因 可 使 书写 
变 得 轻而易举 而 大 受 欢 迎 ， 成 为 必要 的 文案 书写 工具 。 尽 管 编辑 
一 个 文本 所 需 的 时 间 不 多 ,但 是 由 于 文本 和 图 表 排 列 很 容易 改变 ， 
反而 使 得 纸张 的 浪费 增多 了 。 人 们 更 愿意 看 到 打印 在 纸 上 的 文本 ， 
它 似乎 比 荧光 屏 上 的 文件 更 可 靠 些 ， 而 且 符 合 相当 一 批 人 的 阅读 
JR. 但是， 计算 机 的 拼写 监测 器 是 缺乏 语言 分 析 能 力 的 。 其 中 
的 一 个 难题 是 如 何 校 正文 本 的 内 容 ， 如 果 输 入 的 内 容 与 原文 不 符 
但 拼写 无 误 ， 计算机 就 无 法 识别 这 种 版 面 上 的 错误 。 而 人 脑 之 所 
以 可 识别 这 种 区 别 ， 是 因为 它 与 计算 机 的 工作 机 制 不 同 。 虽 然 校 
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对 、 分 析 数 据 以 及 随后 的 内 容 解释 仍 需 依 靠 计算 机 的 辅助 ， 但 这 
是 在 人 脑 的 严格 控制 下 进行 的 。 计 算 机 算法 亦 有 相似 的 情况 ， 其 
运行 结果 亦 需 研究 者 给 出 必要 的 分 析 判 断 。 

计算 机 是 出 色 的 辅助 工具 ,其 算法 可 用 以 解决 数字 性 问题 , 控 
制 和 指导 仪器 的 运行 ， 编 辑 处 理 文字 信息 ， 进 行 检 索 并 寻找 数据 
间 内 在 的 联系 ， 建 立 数据 库 ， 等 等 。 其 中 ， 后 三 项 作用 对 生物 信 
息 学 而 言 ， 至 关 重 要 。 

三 、 不 同类 型 计算 机 的 功用 

1. PC 机 (Personal Computer) 具有 多 方面 的 功能 ， 可 进 
行文 字 处 理 、 表 单 分 析 、 文 件 显示 、 互 联网 应 用 、 甚 至 控制 实验 
仪器 。 例 如 ， 登 陆 网 站 http://www. axon. com 后 ， 可 以 控制 
AXON 的 膜 片 钳 (pCLAMP)。 这 是 一 种 广泛 应 用 于 电 生 理学 中 ， 
可 以 控制 和 测量 神经 元 电 活 动 的 应 用 软件 。 还 可 进行 离子 成 像 和 
分 析 液 浓度 成 像 . PC 机 在 生物 医学 领域 有 多 方面 的 用 途 , 完成 诸 
如 : 在 基因 组 计划 中 可 以 分 析 DNA 芯片 的 杂交 信和 号、 功能 性 神经 
外 科 手 术 中 微 电 极 的 导向 分 析 、 诊 断 监测 运动 障碍 (如 帕 金 森 氏 
E) 等 许多 工作 。PC 机 和 局 域 网 (奔腾 处 理 器 、NT 工作 站 ) 的 
应 用 十 分 广泛 ， 而 且 运 算 速度 快 、 能 力 强大 。 这 使 得 科学 家 无 需 
使 用 超级 计算 机 就 能 开展 诸如 构建 分 子 结构 和 多 序列 对 齐 的 工 
作 。 一 般 说 来 ， 机 控 的 实验 仪器 有 可 选择 的 计算 机 界面 ， 便 可 满 
足 研 究 人 员 用 于 不 同 的 实验 目的 。 据 估计 , 世界 上 仅 有 1% 的 计算 
机 微 处 理 器 用 于 台式 PC 机 ， 其 余 的 99%% 则 装备 于 其 它 的 工业 产 
品 中 ， 如 飞机 、 供 暖 系统 、 实 验 装置 、 安 全 设施 等 等 。 它 们 通常 
是 具有 特定 功能 的 软 硬 件 结合 的 ， 且 无 需 指令 程序 的 芯片 。 

科学 研究 需要 使 用 具有 多 种 内 置 处 理 器 的 仪器 ， 如 气相 色谱 
仪 、 电 子 天 平 、 分 光 光度 仪 等 等 。 例 如 ， 分 光 光 度 仪 可 在 不 同 的 
波长 处 读 取 液体 的 吸光 度 ， 同 时 还 可 即时 测量 受 测 液体 化 学 成 份 
的 变化 。 又 如 液 相 色谱 仪 ， 它 的 自动 分 离 功能 可 根据 分 子 的 大 小 
及 溶解 度 的 不 同 ， 将 混合 物 分 离 成 单一 的 组 分 。 上 述 这 类 仪器 均 
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由 内 置 的 微 处 理 器 直接 控制 ， 不 必 通 过 外 接 计算 机 另行 控制 。 人 
们 只 需 在 类 似 ATM (自动 取款 机 ) 的 小 视窗 上 输入 代码 或 提示 指 
令 ， 即 可 完成 工作 。 近 二 十 年 来 ， 这 些微 处 理 器 从 简单 的 控制 回 
路 发 展 成 为 今日 可 以 贮存 大 量 的 数据 和 图 象 文件 的 芯片 ， 正 逐步 
取代 记录 信息 的 纸张 和 胶片 的 作用 。 

2. 超级 计算 机 (Supercomputers) ”这 类 计算 机 可 以 完成 需 
大 量 运算 的 任务 ， 并 且 具 有 准确 的 工作 记忆 和 超大 容量 的 存储 能 
力 。 它 是 网 络 服务 商 的 主要 的 工作 对 象 ， 大 都 应 用 UNIX 操作 系 
统 ， 且 已 经 服务 于 许多 学 术 团体 。 鉴 于 其 功能 和 价格 ， 它 所 提供 
的 服务 已 成 为 学 术 界 设备 共享 的 范例 。 例 如 ， 和 圣迭戈 超级 计算 机 
中 心 (San Diego Super Computer Center, SDSC) (http://www. 
sdsc. edu/) 是 一 家 提供 公共 操作 服务 的 公司 , 在 学 术 界 的 应 用 十 
分 广泛 .SDSC 可 提供 并 支持 广泛 的 计算 资源 , 目前 其 系列 产品 包 
括 CRAY C90 超级 计算 机 、CRAY T3E 超级 计算 机 、 高 级 视 像 实 
验 室 、 档 案 存储 系统 ， 等 等 。 在 美国 ， 这 些 服务 可 供 学 术 研 究 者 
及 学 生 们 使 用 。 并 且 在 费用 均 分 的 协议 下 ， 亦 可 供 国 内 外 的 商业 
及 政府 人 员 使 用 。 目 前 , 已 有 超过 240 个 机 构 的 5100 多 位 研究 人 
员 将 这 些 服务 平台 用 于 科研 中 。 


高 速 链接 和 并 行 运算 


1997 年 6 月 20 A, 匹兹堡 超级 计算 机 中 心 与 德国 斯 图 加 特大 学 在 大 西 
洋 两 岸 通过 高 速 研究 网 络 将 超级 计算 机 相互 连接 起 来 .这 是 首次 将 高 速 电信 
网 用 于 跨 洋 运算 。 

作为 国际 高 性 能 网 络 的 预期 模型 ， 这 项 计划 将 匹兹堡 的 512 位 处 理 器 
CRAY T3E 计算 机 与 斯 图 加 特 高 能 计算 中 心 的 一 台 512 位 处 理 器 TSE 机 
相连 。 在 不 同 的 地 点 连接 两 台 或 更 多 的 超级 计算 机 , 进行 同一 项 运算 任务 称 
为 宏观 运算 (Metacomputing)。 这 种 连接 实际 上 产生 了 1024 位 程序 系统 ,其 
运算 性 能 之 高 在 理论 上 可 达到 每 秒 6750 亿 次 。 这 项 研究 计划 的 实施 是 以 两 
地 间 有 高 速 越 洋 链接 的 一 系列 研究 网 络 为 基础 的 。 近 几 年 建立 的 这 种 网 络 ， 
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其 传输 信息 的 速度 比 INTERNET 快 100 倍 。 例 如 ，vBNS (the very high 
speed Backbone Network Service) 连接 了 美国 国内 多 家 大 型 计算 机 中 心 , 其 
传输 速度 达 每 秒 6. 22 亿 个 字 节 , 一 本 完整 的 《大 不 列 颠 百科 全 书 》 可 在 10 
秒 内 传输 完毕 GHA PSC NEWS, http://www. PSC. edu). 


互联 网 是 一 个 由 转换 器 、 路 由 器 和 光缆 将 计算 机 和 工作 站 连 
接 起 来 的 网 络 系 统 。 其 强大 的 作用 体现 在 它 的 交互 模式 上 。 现 在 
已 有 了 更 高 级 的 PC 机 系统 , 许多 交互 式 任务 在 WWW 上 通过 远 
程 大 型 计算 机 完成 。 这 就 逐步 取代 了 过 去 那 种 通过 下 载 软件 ， 再 
进行 局 域 分 析 的 方法 。 

四 、 计 算 机 分 析 的 局 限 性 

英语 字典 、 英 文 索引 和 其 他 许多 的 英语 参考 书 ， 都 是 按照 26 
个 字母 的 顺序 编排 的 。 使 用 字典 或 其 他 参考 书 的 方法 ， 也 是 基于 
人 们 对 这 一 套 编排 方案 的 理性 认识 上 的 。 当 然 ， 语言 有 数 百 种 之 
多 ， 其 他 语言 亦 可 以 按 其 自身 的 字母 顺序 发 挥 各 自 的 功用 。 一 种 
语言 是 由 很 有 限 的 一 套 符号 组 成 的 ， 是 我 们 学 习 和 认识 事物 的 最 
佳 体系 之 一 。 这 就 可 以 解释 : 为 什么 书籍 能 得 到 如 此 广泛 的 使 用 ， 
并 且 成 为 一 种 稳定 的 信息 交流 和 储藏 形式 。 

与 电脑 中 数字 字符 串 的 搜索 相 比较 ， 识 别 字母 这 种 方式 可 能 
会 被 简单 地 说 成 是 “类 比 型 识别 方式 ”。 人 脑 利 用 字母 拼写 来 寻找 
某 个 电话 号 码 ， 电 脑 则 不 是 。 后 者 更 为 快捷 ， 电 脑 使 用 两 种 符号 
O, D 来 表示 字母 。 由 于 搜索 字符 串 查找 的 是 整个 文档 ， 信 息 的 
分 级 对 于 以 计算 机 为 基础 的 查询 方式 并 非 必须 。 对 比 起 来 ， 人 脑 
是 用 一 种 可 视 的 方式 去 观察 信息 及 其 相互 联系 的 ， 因 此 知道 字母 
X 排 在 字母 之 前 。 而 电脑 在 没有 结构 性 数据 库 的 情况 下 ， 无效 
性 和 错误 〈 即 查询 时 没有 结果 ) 随 着 信息 储存 量 的 增 大 而 增加 。 

如 何 教 电脑 像 人 那样 按 字母 表 顺 序 ， 去 查找 电话 号 码 呢 ? 当 
搜寻 和 分 类 整理 信息 GAM: A 在 B 前 , B 在 C 前 等 ) 时 , 我 们 
需要 把 字母 表 的 排列 规则 教 给 电脑 。 这 是 机 器 能 够 解释 一 系列 分 
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级 系统 和 优先 权 的 命令 语言 。 然 而 ， 我 们 需要 的 功能 不 只 是 简单 
的 字符 串 搜索 模式 ， 而 是 电脑 现今 完成 起 来 仍 十 分 困难 的 一 些 工 
作 (虽然 对 电脑 来 说 , 这 些 工作 不 需要 太 精 确 )。 如 果 所 要 找寻 的 
名 字 有 拼写 错误 ， 电 脑 就 不 能 查 出 。 然 而 ， 当 你 手工 查找 一 个 名 
字 时 ,即使 对 它 的 正确 拼写 并 无 把 握 , 你 也 许 仍 能 找到 它 。 另 外 ， 
你 可 能 会 找到 你 认为 有 意义 的 其 他 信息 。 虽 然 ， 你 在 开始 工作 前 
可 能 并 没有 期 望 会 找到 它 。 可 见 ， 电 脑 和 人 脑 的 工作 方式 是 很 不 
相同 的 。 在 科学 研究 中 使 用 电脑 查找 信息 ， 正 如 使 用 它 查 找 电 话 
号 码 一 样 。 科 学 研究 是 一 项 人 类 探索 发 现 未 知 世 界 的 活动 ， 探 求 
物体 间 的 相互 关系 是 这 一 活动 的 中 心 工作 。 这 就 意味 着 ， 上 述 关 
系 的 定量 化 以 及 数字 化 后 的 解释 是 需要 的 。 科 学 家 必须 对 信息 的 
字符 串 进行 查询 和 对 比 ， 以 确定 字符 串 在 配对 过 程 中 的 质量 。 明 
白 计算 机 工作 的 原理 ， 以 及 计算 机 专家 排列 这 些 信息 的 方法 ， 才 
能 使 计算 机 在 科学 实验 工作 中 得 到 成 功 的 应 用 (图 1-2)。 

当 一 项 实验 结束 时 ,所 获得 的 大 量 数 据 需 要 进行 分 析 处 理 。 这 
包括 建立 各 种 数据 库 、 进行 统计 学 检验 , 等 等 。 尤其 重要 的 是 , 选 
出 那些 有 分 析 价值 的 、 能 合理 解释 该 实验 的 数据 。 这 当然 可 以 不 
借助 于 计算 机 。 但 这 样 一 来 ， 因 常常 依赖 于 实验 者 的 经 验 ， 而 不 
具有 可 靠 性 。 比 如 ， 若 实验 在 某 一 前 提 下 进行 ， 则 期 待 的 实验 结 
果 也 以 该 前 提 为 基础 而 产生 了 。 因 此 ， 数 据 质量 的 评定 往往 应 由 
旁观 者 得 出 。 

科学 家 的 直觉 思维 和 主观 想法 是 作出 决策 的 重要 因素 之 一 。 
当然 ， 计 算 机 可 以 起 到 一 定 的 作用 ， 但 只 限于 那些 用 于 专业 分 析 
的 软件 ， 而 且 这 一 过 程 也 得 有 人 为 干预 。 即 使 到 了 计算 机 可 自动 
运行 分 析 程 序 时 ， 它 也 不 能 解释 所 有 的 数据 。 不 过 ， 用 计算 机 畏 
助 分 析 数 据 可 逐渐 消除 实验 人 员 的 主观 影响 。 因 为 计算 机 读 取 任 
何 数 据 都 一 视 同仁 。 
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图 1-2 ”实验 科学 和 计算 机 技术 相 结合 


事实 上 ， 无 论 是 以 书面 形式 传播 信息 的 实验 技术 手册 ， 还 是 
互联 网 ， 都 不 能 取代 实践 的 地 位 。 在 科研 的 过 程 中 ， 最 重要 的 是 
传授 经 验 和 获取 信息 。 教 科 书 、 讲 义 和 实 验 规章 等 书面 上 的 知识 
并 不 能 涵盖 实践 的 全 部 内 容 。 如 今 ， 互 联网 提供 了 一 种 很 有 帮助 
的 服务 一 一 远程 教育 。 现 在 有 越 来 越 多 的 教育 机 构 网 站 《如 : + 
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津 大 学 ) 就 通过 互联 网 提供 了 远程 教育 课程 。 互 联网 的 “合作 ” 特 
性 可 影响 甚至 误导 人 们 的 观念 。 实 际 上 ， 互联 网 上 的 交互 性 
(interactive) 是 有 限 的 。 

应 当 强调 一 点 ， 机 读数 据 的 精确 性 依赖 于 操作 人 员 的 正确 输 
入 和 操作 。 数据 库 相 关注 释 的 不 可 靠 性 、DNA 和 蛋白 质 库 也 有 错 
误 ， 这 些 事实 已 不 是 什么 秘密 。 比 如 ， 从 何 处 并 如 何 得 到 这 些 序 
列 的 相关 信息 ， 就 可 能 有 错误 。 生 物 信 息 学 的 成 功 之 处 在 于 将 全 
部 注释 可 靠 的 数据 库 序列 信息 与 准确 的 生物 学 数据 直接 联系 起 
来 。 这 种 检验 数据 注释 精确 性 的 过 程 ， 是 非 自动 化 的 ， 也 需要 花 
费 许多 时 间 。 相 反 ， 为 了 确保 数据 库 信息 来 源 的 可 靠 性 ， 相 关 领 
域 的 许多 专家 们 需 逐 字 逐 句 地 阅读 这 些 信息 。 

研究 者 运用 诸如 BLAST 这 样 的 程序 ， 对 基因 序列 进行 比较 
是 相当 地 容易 的 ， 但 要 真正 理解 比较 结果 的 含义 却 很 困难 。 这 些 
结果 由 比较 序列 的 类 型 和 起 始 序列 而 定 。 这 二 者 均 提 到 了 一 个 事 
实 ， 即 除了 人 核酸 序列 外 ， 和 人们 还 需 知道 它们 的 功能 结构 和 获取 这 
些 序列 的 细胞 来 源 及 其 实验 方法 。 换 言 之 ， 需 明白 这 些 序列 反映 
的 生物 学 信息 ， 才 能 理解 它 与 相关 序列 或 新 的 序列 进行 比较 的 结 
果 。 生 命 科学 家 在 基因 组 计划 的 研究 中 发 现 大 多 数 序列 无 生物 学 
功能 。 因 此 ， 序 列 的 来 龙 去 脉 对 理解 其 生物 学 功能 就 显得 尤为 重 
3E. 研究 人 员 希 望 能 提出 有 预见 性 的 信息 , 从 而 有 利于 实验 设计 ， 
并 用 来 迅速 可 靠 的 证 实 这 些 序列 所 反映 的 生物 学 意义 。 

五 、 对 更 好 的 计算 机 工具 的 需求 

生物 学 和 医学 是 多 层面 的 学 科 。 神 经 科学 集中 研究 神经 元 的 
生物 学 特性 ; 生物 化 学 关注 生物 系统 中 的 化 学 反应 ; 分 子 生物 学 
则 是 在 分 子 水 平 研究 生物 间 的 相互 作用 ， 以 及 它们 与 作为 整体 的 
细胞 和 有 机 系统 的 相关 性 ; 病毒 学 和 细菌 学 则 关注 着 病毒 和 细菌 
各 自 的 生物 周期 。 生 物 学 其 他 方面 的 研究 多 集中 于 特殊 领域 相关 
的 特殊 课题 。 生 物 学 各 方面 的 研究 ， 既 有 差异 又 相互 联系 。 随 着 
数据 管理 技术 的 提高 ， 这 些 领域 间 的 交叉 重 又 会 更 加 明显 ， 因 而 
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应 用 更 高 级 的 计算 机 工具 已 成 为 必需 。 

在 过 去 的 几 十 年 中 ， 生 物 学 和 医学 均 取 得 了 非凡 的 进步 。 这 
就 形成 了 一 个 正 反馈 环 ， 即 每 一 项 新 的 研究 成 果 都 可 成 为 促进 这 
一 领域 发 展 和 深化 的 推动 力 。 因 而 ， 科 研 人 员 对 一 种 高 效 且 容 量 
大 的 生物 数据 处 理 系统 的 需求 目 益 迫 切 。 但 运行 这 一 系统 ， 若 没 
有 强 有 力 的 计算 机 支持 是 无 法 实现 的 。 如 今 ， 计 算 机 已 成 为 生物 
学 研究 中 必 不 可 少 的 组 成 部 分 。 没 有 了 它 ， 生 物 学 和 医学 的 发 展 
毫 无 疑问 地 会 受到 阻碍 。 作 为 非 生命 体 的 计算 机 ， 在 与 生命 学 科 
(生物 学 ) 研究 建立 伙伴 关系 时 , 需要 将 两 门 学 科 中 的 某 些 部 分 进 
行 合并 。 一 些 新 的 领域 , 如 医学 中 的 计算 机 应 用 和 计算 生物 学 , E 
逐渐 兴起 并 迅速 在 生命 科学 中 受到 人 们 的 重视 。 这 些 领 域 涉 及 到 
更 为 快速 的 生物 数据 分 析 功能 ， 并 逐步 发 现 和 拓展 出 许多 以 前 未 
知 的 生物 学 发 展 趋势 ， 这 些 趋势 ， 在 治疗 方法 的 进步 中 发 挥 了 作 
用 (如 药物 设计 等 ), 达到 延长 生命 、 提 高 人 们 的 生活 质量 的 目的 。 

在 日 常 应 用 中 (如 游戏 、e 一 mail、 文字 处 理 及 插图 等 ), 计算 
机 一 般 都 有 人 性 化 的 界面 。 这 些 界 面 模拟 了 一 个 真实 的 桌面 ， 堆 
放 着 大 量 的 论文 、 文 件 夹 、 字 典 和 回收 站 等 。 计 算 机 荧屏 界面 上 
并 没有 软件 和 机 器 语言 的 编码 ， 而 是 使 用 了 一 些 有 特殊 含义 的 符 
号 并 最 终 把 符号 转换 成 电子 线路 中 的 一 系列 “ 开 和 关 ” 的 电流 。 

因为 当今 科学 技术 广泛 地 应 用 电脑 并 依赖 电脑 ， 所 以 类 似 的 
仪器 已 被 电脑 荧屏 上 相似 的 界面 代替 这 是 一 个 必然 的 发 展 趋势 
因为 人 用 类 比方 式 思考 问题 ， 而 并 非 数字 式 的。 我 们 需要 看 到 一 
个 图 象 ， 而 并 非 一 个 数字 表格 。 人 们 创立 了 三 维 图 象 法 ， 以 便 了 
解 那些 从 科学 探索 中 获得 的 数字 化 的 相互 关系 的 含义 。 例 如 ， 我 
们 可 使 用 颜色 来 表示 几乎 全 部 的 物理 参数 ， 如 温度 、 电 荷 、 密 度 、 
质量 、 高 度 和 粘度 等 。 

今天 ， 在 应 用 电脑 网 络 工作 的 时 代 ， 象 “虚拟 细胞 ”这 种 词 
有 了 新 的 含义 。 在 电脑 网 络 系统 的 帮助 下 ， 可 在 细胞 动力 学 中 给 
定 一 个 分 级 的 相互 关系 ,将 已 知 的 物理 化 学 知识 用 数字 来 模型 化 。 
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这 是 一 个 需要 超级 计算 机 来 完成 三 维 物体 〈 分 子 结 构 ) 复杂 的 图 
形 、 图 象 以 及 他 们 的 动力 (分 子 动力 ) 的 虚拟 世界 。 

一 个 细胞 中 的 原子 数 绝对 是 一 个 天 文 数字 。 在 计算 机 模拟 蛋 
白质 功能 结构 的 实验 中 ,我们 不 仅 要 知道 分 子 大 小 及 相对 位 置 等 
结构 信息 ,还 需 知道 分 子 中 不 同 原子 之 间 相 互 作用 力 的 能 量 信 息 ， 
这 包括 化 学 键 、 氢 键 、 离 子 键 等 。 我 们 不 仅 要 了 解 一 个 蛋白 质 中 
的 原子 数目 ， 更 要 知道 这 些 原子 之 间 的 作用 力 的 物理 参数 。 计 算 
的 复杂 性 以 及 计算 能 力 的 不 足 (也 就 是 数学 算法 的 不 足 ), 使 我 们 
不 得 不 注意 有 关 生 物 分 子 的 量子 力学 方面 的 描述 。 这 些 系统 十 分 
复杂 ， 至 今 只 有 最 简单 的 分 子 一 一 氢 分 子 的 结构 较为 明确 。 经 典 
力学 和 量子 力学 在 一 同 探索 着 研究 分 子 结构 的 捷径 。 

最 小 的 氨基 酸 HAR) 分 子 包括 十 个 原子 ， 小 的 蛋白 包含 
100 个 氨基 酸 , 估计 每 个 蛋白 质 分 子平 均 有 几 千 个 原子 ,而 每 个 细 
胞 又 有 几 千 个 蛋白 质 分 子 。 简 单 的 推算 , 假设 每 个 蛋白 有 10° 个 原 
子 ， 而 每 个 细胞 又 含有 10' 个 蛋白 一 一 这 相当 于 每 个 细胞 中 所 有 
的 蛋白 包含 了 1 亿 个 原子 。 最 小 的 细菌 基因 组 有 10 亿 个 原子 。 我 
们 估计 ， 包 括 所 有 的 新 陈 代谢 物质 以 及 水 分 子 在 内 ， 大 约 每 个 细 
菌 细胞 有 30 亿 个 原子 。 如 果 每 个 原子 的 位 置 由 平均 5 个 物理 参数 
来 决定 ， 我 们 需要 一 个 包含 了 150 亿 个 空格 的 电子 表格 来 储存 这 
些 信息 。 假 如 我 们 现在 计算 这 个 系统 的 动力 , 并 想 知道 在 10 亿 分 
之 一 秒 后 所 有 原子 所 处 的 位 置 。 为 了 完成 这 个 工作 ， 需 要 150 亿 
个 计算 步骤 , 用 100 MHz 的 电脑 需要 150 秒 完成 , 计算 1 秒 后 的 
变化 需要 150 万 天 ， 一 一 也 就 是 4000 年 以 上 。 这 样 的 分 析 过 程 无 
疑 需要 计算 能 力 非常 强 的 超级 计算 机 。 

六 、 网 络 与 生物 信息 学 

科学 技术 的 发 展 不 仅 扩展 了 人 们 的 视野 ， 而 且 也 改变 了 人 们 
的 行为 方式 。 科 学 家 本 身 的 工作 方法 也 应 随 着 科学 的 发 展 及 其 自 
身 的 要 求 作 出 相应 的 改变 。 在 传统 上 ， 科 学 家 可 以 按 个 人 的 兴趣 
依靠 自身 的 力量 ， 在 某 一 领域 内 进行 研究 。 但 今天 ， 随 着 科学 研 
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究 的 深入 ,他 们 印发 要 以 一 种 集体 合作 的 模式 来 完成 那些 更 复杂 、 
难度 更 大 的 工作 。 在 合作 的 过 程 中 ， 信 息 的 交流 和 共享 是 十 分 重 
要 的 一 环 。 勿 庸 质疑 ， 在 网 络 时 代 ， 互 联网 已 成 为 科学 家 们 十 分 
重要 的 辅助 工具 。 

快速 而 便利 的 网 上 信息 流 对 科学 家 来 说 有 如 下 好 处 :首先 ,网 
络 为 任何 一 个 研究 者 提供 了 获取 信息 的 平等 机 会 。 充 足 的 资料 和 
自由 的 选取 是 决定 科研 的 方向 、 起 点 的 要 素 之 一 。 其 次 ， 就 分 子 
生物 学 而 言 ， 生 物 学 数据 库 中 贮存 了 大 量 的 信息 。 比 如 ， 已 知 的 
一 些 物种 的 某 段 碱 基 序列 。 虽 然 过 多 的 此 类 信息 显得 富余 ， 甚 至 
过 剩 ， 但 却 为 日 后 的 综合 比较 分 析 提 供 了 可 能 。 而 且 ， 一旦 需要 
应 用 某 段 信息 时 的 便捷 ， 则 是 不 言 而 喻 的 。 第 三 ， 有 利于 比较 基 
因 组 学 的 形成 和 发 展 。 这 是 一 门 跨 种 系 的 生物 学 新 学 科 。 现 在 认 
为 ,生物 进化 的 研究 显示 出 所 有 的 生物 体 间 有 一 种 内 在 的 联系 ,在 
本 质 上 应 是 由 同一 原始 的 形式 进化 而 来 的 。 因 此 ， 比 较 不 同 种 系 
基因 组 的 异同 是 有 实际 意义 的 。 对 酵母 等 便于 研究 的 低 等 生物 进 
行 比较 的 研究 成 果 ， 就 对 我 们 进一步 发 现 和 理解 人 类 的 基因 及 其 
生化 途径 是 有 帮助 的 。 

不 同 国家 和 地 区 的 分 子 生物 学 研究 者 ， 应 用 不 同 的 方法 进行 
基因 测序 ， 其 结果 分 别 存放 在 不 同 的 数据 库 中 。 但 因为 有 了 网 络 
技术 ,这 些 揭示 了 相关 基因 的 信息 便 有 了 自由 传输 交流 的 可 能 . 研 
究 者 在 确定 一 个 新 的 基因 时 可 能 不 必 去 筛选 细胞 系 或 动物 组 织 ， 
而 是 直接 利用 网 上 的 公共 数据 库 查询 相关 的 目的 基因 。 这 就 为 人 
们 的 研究 提供 了 一 种 新 的 方法 ， 也 可 以 说 是 一 条 捷径 。 

研究 表明 ， 基 因 的 表达 、 蛋 白质 功能 的 发 挥 、 生 物 信 号 的 传 
导 等 生命 现象 ， 常 常 是 多 个 基因 、 蛋 白质 相 互 作用 的 结果 ， 机 制 
复杂 。 对 其 深入 地 研究 十 分 困难 ， 而 科学 家 们 合作 攻关 、 共 享 数 
据 资源 已 成 为 日 后 科研 的 鲜明 特色 之 一 : 另 一 方面 , 交流 协作 、 信 
息 畅通 是 生物 信息 学 自身 发 展 的 基本 条 件 。 而 网 络 在 其 中 扮演 了 
重要 的 角色 。 
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将 互联 网 引入 生命 科学 的 研究 ， 其 成 果 令 人 满意 。 它 极 大 地 
增强 了 研究 人 员 之 间 的 各 种 交流 ,并 减少 了 各 领域 中 的 重复 研究 。 
诸如 美国 国家 生物 技术 信息 中 心 (National Center for 
Biotechnology Information, NCBI) 和 欧洲 生物 信息 研究 所 
(Eutopean Bioinformatics Institute, EBI) 等 数据 管理 系统 的 出 
现 ， 提 高 了 世界 上 许多 研究 成 果 的 完成 效率 ， 并 将 不 同学 科 的 生 
命 科学 家 们 有 机 地 联合 起 来 。 生 物 学 数据 呈 指 数 级 扩 增 ， 这 种 扩 
增 就 需要 专门 的 特定 的 处 理 系统 生成 有 组 织 层次 的 数据 清单 ， 如 
区 分 蛋白 质 的 生物 学 数据 和 多 核 苷 酸 (DNA 和 RNA) 的 生物 学 数 
据 , SOE (Protein Data Bank, PDB) 是 保存 蛋白 质数 据 的 数 
据 库 。 与 大 多 数 生物 学 服务 机 构 一 样 ， 对 于 特定 的 蛋白 质 结构 ， 
PDB 也 提供 所 贮存 的 分 子 间 的 相互 联系 及 相互 间 的 可 能 趋向 。 在 
PDB， 这 些 信息 可 从 蛋白 质 的 结构 类 型 数据 库 (Structural 
Classification of Proteins, SCOP) 来 检索 。 象 SCOP 这 样 的 数据 
库 ， 是 描述 蛋白 质 大 分 子 特征 的 有 用 工具 。 仅 仅 将 这 些 分 子 分 门 
别 类 地 区 分 开 来 尚且 不 够 ， 这 种 数据 处 理 系统 还 应 显示 出 一 些 能 
够 引起 研究 人 员 兴 趣 的 生物 分 子 的 相关 信息 。 这 些 信息 存在 于 一 
个 特殊 文件 内 ， 与 其 它 相 关 站 点 的 相关 数据 相 链 接 。 比 如 ， 小 鼠 
肌 红 蛋白 (myoglobin) 的 PDB 文摘 与 肌 红 蛋 白 分 子 相 关 信 息 (如 
相关 摘要 ) 有 多 种 链接 可 供 选 择 ， 例 如 与 其 他 生物 的 肌 红 蛋 白 分 
子 相关 链 接 〈 见 图 1-3)。 在 给 定 一 个 数据 查询 项 后 ， 这 个 数据 查 
询 项 的 价值 在 于 它 可 以 与 其 它 服务 器 上 的 相关 记录 链接 ， 这 样 就 
可 以 提示 出 它 与 其 它 分 子 和 其 它 系 统 的 内 在 联系 。 

过 去 ， 在 研究 领域 内 一 些 无 法 触及 的 生物 学 问题 ， 如 今 已 是 
计算 生物 学 研究 的 主题 。 生 物化 学 、 分 子 生 物 学 、 生 物 进化 论 、 生 
物 信息 学 、 神 经 科学 以 及 药理 学 仅仅 是 自然 科学 系统 领域 中 的 一 
部 分 , 现 已 深 受 计算 机 应 用 的 影响 , 与 自然 科学 的 其 他 学 科 相 比 ， 
生物 学 领域 至 今 仍 有 一 些 问题 被 认为 是 不 可 预测 的 ， 且 生物 学 的 
许多 方面 互 无 关联 。 将 计算 机 工具 引入 生命 科学 的 研究 领域 ， 可 
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图 1-3 在 PDB RARE pA WRIA (myoglobin) MAR. 
同时 显示 了 多 种 其 他 生物 肌 红 蛋 白 的 相关 链接 。 

大 大 地 方便 数据 处 理 。 更 重要 的 是 ， 应 用 计算 机 工具 可 以 发 现 生 
物 分 子 与 各 自 相关 领域 之 间 的 相 下 关系 。 生 物 学 信息 的 极 大 丰富 
和 预测 能 力 的 提高 ， 使 之 明显 地 得 到 强化 并 且 可 很 快 地 建立 起 各 
系统 间 的 合作 关系 。 将 生物 学 视 为 可 预测 科学 的 设想 ， 已 成 为 许 
多 研究 人 员 的 研究 动力 。 没有 这 一 点 ， 生 物 学 的 科研 目标 将 极 大 
程度 地 受阻 ， 甚 至 仅仅 是 人 们 的 科学 幻想 而 已 。 

在 过 去 的 几 十 年 中 ， 医 学 领域 取得 了 许多 重大 的 进展 ， 生 命 
科学 也 因此 而 倍 受 关注 。 一 些 有 助 于 健康 ， 提 高 人 们 生活 质量 的 
新 药 也 投入 了 使 用 。 这 在 很 大 程度 上 ， 促 进 了 包括 分 子 生物 学 和 
生物 化 学 在 内 的 多 门生 命 学 科 的 发 展 。 生 物 信息 学 作为 生命 科学 
中 的 信息 学 科 ， 将 扮演 重要 的 角色 ,影响 并 带动 相关 学 科 的 进步 
与 融合 。 


参考 文献 : 
1. 刘 秀 艳 , 等 . 应 用 计算 机 识别 蛋白 质 功能 。 生命 的 化 学 , 2000; 


10. 


3 (20): 100-102 


. Fickett Jw. 通过 计算 机 寻找 基因 . 国外 医学 遗传 学 分 册 ， 


1998; 3, (21): 147-152 


- 范 玉 新 , 等 . 基因 功能 分 析 与 鉴定 的 新 进展 。 国 外 医学 分 子 生 


物 学 分 册 ，1998; 3 (20): 100-103 


- 余 才 林 , 等 . 基因 组 研究 中 寻找 新 基因 的 方法 。 国 外 医学 遗传 


学 分 册 ，1995; 4: 173-175 


. Bi. 生物 信息 学 新 进展 一 第 六 届 国 际 生物 信息 学 和 基因 组 


研究 年 会 综述 。 国 外 医学 遗传 学 分 册 , 1999; 2 (22): 104-107 


. Altschul SF, et al. Basic Local alignment search tool. J Mol 


Biol, 1990, 215 (3); 403-410 


. Sussman JL, et al. Protein Data Bank (PDB): database of 


three dimensional Structural information of biological 
macromolecules. Acta Crystallogr D Biol Crystallogr, 1998, 
54 (1); 1078-1084 


. Bartong J. SCOP: structural classfication of protein. Trends 


Biochem Sci, 1994, 19 (12); 554-555 


. Andreas D. Baxevanis, et al. "Effjk, SiR. 生物 信息 学 一 


基因 和 蛋白 质 分 析 的 实用 指南 ,清华 大 学 出 版 社 ，2000: 324- 
326 

TIGR releases EST data publicly (news). Nat Biotechnol, 
1997; 15 (5): 398 


+ 28° 生物 信息 学 概论 


第 二 章 ”生物 大 分 子 


生物 大 分 子 主要 是 指 蛋白 质 和 核酸 ， 它 们 存在 于 现在 已 知 的 
所 有 的 生命 体 中 ， 是 生命 的 标志 。 从 化 学 组 成 上 说 ， 是 生命 与 非 
生命 的 分 界 。 在 大 千 世 界 中 ， 无 论 植物 或 动物 ， 无 论 是 高 等 或 低 
等 , 这 两 类 大 分 子 物质 , 都 是 很 相似 的 。 蛋 白质 是 由 20 种 氨基 酸 
组 成 的 ; 所 有 的 核酸 是 由 数 种 基本 的 核 苷 酸 组 成 的 。 生 物 大 分 子 
是 与 生命 的 基本 现象 ， 诸 如 新 陈 人 代谢、 生长、 运动、 繁殖 、 遗 传 
等 等 ， 密 切 相 关 的 。 因 此 ， 生 命 科 学 的 研究 必须 从 这 两 类 大 分 子 
物质 人 手 ， 对 其 要 有 深入 的 了 解 ! 用 包括 生物 信息 学 在 内 的 各 种 
方法 削 析 它们 的 结构 ， 并 把 结构 与 功能 的 研究 联系 起 来 。 

生物 信息 学 主要 是 随 着 分 子 生物 学 的 发 展 而 出 现 的 一 门 的 交 
叉 科学 ， 在 人 类 基因 组 计划 以 及 其 它 物种 基因 组 计划 中 得 以 迅速 
WER, 相关 的 数据 库 及 重要 的 理论 、 技 术 日 益 成 熟 完善 。 AK, 
其 中 的 很 多 内 容 涉及 到 蛋白 质 及 核酸 的 结构 ， 并 且 生物 信息 学 的 
研究 方法 以 及 相关 软件 和 数据 库 的 设计 是 以 生物 大 分 子 的 基本 特 
性 为 基础 的 。 这 里 ， 仅 就 相关 知识 作 一 简单 的 介绍 。 
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蛋白 质 是 细胞 组 织 成 分 中 含量 最 丰富 、 功 能 最 多 的 高 分 子 物 
质 。 它 们 在 所 有 的 生命 体 中 起 着 关键 性 的 作用 。 一 个 真 核 细胞 中 
可 以 有 多 种 蛋白 质 ， 它 们 的 结构 各 异 ， 亦 各 有 其 特殊 功能 。 蛋 白 
质 功能 的 多 样 性 是 由 其 结构 的 千差万别 所 决定 的 。 

一 、 蛋 白质 的 结构 

蛋白 质 是 由 氨基 酸 组 成 的 ， 要 理解 蛋白 质 的 基本 特性 需 掌握 
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组 成 蛋白 质 的 氨基 酸 的 性 质 。 

1 氨基酸 的 结构 

在 自然 界 ， 氨 基 酸 有 300 余 种 ， 但 组 成 蛋白 质 分 子 的 氨基 酸 
仅 有 20 种 ， 且 它们 均 属于 L-a ERR (图 2-1). 


R R 
HN 一 一 du —coon pK=9.4 HuN da 一 coo pK-22 
| 
L -4 uM 生理 状态 下 pH7.4 WM TTL f 


图 2-1 L-a 氨基 琶 的 化 学 结构 及 其 兼 性 离 了 特性 : — L-a 氨基 
酸 包 含 一 个 位 于 中 间 的 a 碳 原子 和 4 个 化 学 取代 基 团 ，R 
代表 具有 理化 特性 的 侧 链 ，NH, 和 COOH 分 别 代表 破 性 
氨基 和 酸性 羧基 。 通 常 在 生理 状况 下 ， 二 者 均 存在 。 
氨基 酸 有 一 个 氨基 和 一 个 羧基 ， 氨 基 增 加 其 碱 性 ， 羧 基 与 其 
酸性 有 关 。 在 生理 pH 条 件 下 , 两 端 均 带电 荷 , 即 氨基 端 质子 化 时 ， 
羧基 端 为 去 质子 化 状态 。 一 种 " 氨基酸 有 别 于 其 它 "氨基酸 的 性 
质 是 由 其 残 基 或 侧 链 决定 的 , 通常 认为 这 些 残 基 是 R 基 团 。 通 过 
R 基 团 的 特征 可 区 分 20 种 。 氨基 酸 中 每 一 个 的 性 质 , 其 中 , 有 些 
残 基 偏 酸 性 ， 有 些 偏 碱 性 ， 其 它 是 中 性 的 。 
(1) 酸性 残 基 
谷 氨 酸 根 E) 和 天 门 冬 氨 酸 根 D): 
谷 氨 酸 根 和 天 门 冬 氨 酸根 分 别 是 谷 氨 酸 与 天 门 冬 氨 酸 的 共 斩 
化 合 物 形式 ， 生 理 pH 条 件 下 呈 去 质子 化 状态 ， 带 负电 荷 。 
(2) 碱 性 残 基 
MAR OO AWAR R): 
赖 氨 酸 和 精 氨 酸 在 生理 pH 条 件 下 呈 碱 性 , BETERE, H 
正 电 荷 。 
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和 氨基酸 的 疏水 性 分 类 

氨基 酸 也 可 根据 其 疏水 性 分 类 。 有 些 是 斑 水 的 ， 有 些 则 是 亲 
水 的 。 根 据 残 基 的 疏水 性 质 ， 我 们 可 以 预计 某 些 基因 表达 在 蛋白 
质 分 子 结构 中 所 处 的 位 置 。 梳 水 性 残 基 往 往 位 于 蛋白 质 分 子 的 核 
心 处 ， 而 亲 水 性 残 基 则 主要 分 布 于 蛋白 质 分 子 的 表面 ， 与 水 环境 
相互 作用 。 化 学 中 “相似 相 溶 ”的 概念 在 生物 系统 中 同样 适用 , 因 
此 ， 在 大 多 数 生物 系统 中 朴 水 一 疏水 的 相互 作用 较 相 互 对 抗 的 疏 
水 一 亲 水 的 相互 作用 更 占 优势 。 

* 谷 氨 酸 、 天 冬 氨 酸 、 赖 氨 酸 和 精 氨 酸 在 生理 pH. 条 件 下 带电 
荷 ， 主 要 位 于 蛋白 质 分 子 外 部 ,与 极 性 环境 相互 作用 。 一 般 来 讲 ， 
带电 分 子 亲 极 性 环境 ， 主 要 因为 极 性 环境 对 电荷 有 稳定 作用 比 
in. 氢 键 、 静 电 作用 力 等 ) 。 

WEB. SAM. ZAM. HEAR. CENE. BAM. 
甘氨酸 、 半 胱 氨 酸 和 色 氨 酸 是 朴 水 性 氨基 酸 ， 存 在 于 蛋白 质 分 子 
的 核心 以 及 其 它 朴 水 环境 ， 残 基 中 的 碳 链 可 增加 其 朴 水 性 能 。 

‘RARE. SARK. HAR. ARAI AREER 
带电 的 极 性 基 团 ， 具 有 溶解 的 倾向 。 

* 酷 氨 酸 的 羧基 增加 亲 水 性 ,而 其 氨基 侧 链 又 具有 朴 水 性 ,这 
种 双重 性 使 酷 氨 酸 适 于 亲 水 、 朴 水 两 种 环境 。 

“组 氨 酸 具有 相对 极 性 ， 其 环 型 侧 链 结构 的 构象 变化 使 其 等 
电 点 范围 较 宽 ， 并 具有 双重 性 质 ， 组 氨 酸 可 根据 环境 的 不 同 而 呈 
质子 化 状态 或 去 质子 化 状态 。 这 一 特性 使 其 在 许多 酶 的 活性 位 点 
构成 Schiff 碱 基 。 

表 2-1 为 -氨基 酸 的 一 般 性 质 ， 表 2-2 是 被 普遍 引用 的 不 同 
氨基 酸 的 疏水 性 范围 ， 其 中 的 一 些 教 值 更 为 常用 。 但 此 表 的 重要 
价值 在 于 表 中 所 列 的 不 同 的 研究 数值 之 间 有 着 一 致 性 。 其 中 的 正 
BOB RB Ht kK ERE. 
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表 2-1 -氨基 酸 的 一 般 性 质 


氨基 酸 。 ”单字 母 代号 Bkt 芳香 性 脂肪 酸 小 残 基 极 性 电荷 


WEM 
精 氨 酸 
天 冬 酰 胺 
RBM 
半 胱 氨 酸 € A A 
RAM E 
谷 氨 酰胺 Q 
甘氨酸 G 
组 氨 酸 H 
RAAM I 
HAR L 
MAM K 
蛋氨酸 M 

F 

P 


A A 


oz w > 
> > 


ppPp > pp pp 
> 


pp Pp > Pp pp 
» 


AAR 
MAM 
丝氨酸 S 
苏 氨 酸 T 
GAM w A A 
Y 
v 


> > 
>>> Pp 


MAM 
SAB A A 


A A 


全 ”代表 所 列 氨基 酸 残 基 特 性 或 者 部 分 特性 
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表 2-2 ”不同 氨基 酸 的 疏水 性 范围 


PI 单字 母 代号 Kyte/Doolittle Edelman Eisenberg 


[1 [2] [3] 
KAM A 1.8 0. 4397 0. 25 
HM R -4.5 -0. 7010 -1.80 
天 冬 酰 胺 N -3.5 -1.414 -0. 64 
天 冬 氮 酸 D -3.5 -2.588 -0.72 
半 胱 氮 酸 C 2.5 1.150 0.04 
谷 氨 酸 E -3.5 -1.270 -0. 62 
谷 氨 酰胺 Q -3.5 -1.656 -0. 69 
甘氨酸 G -0.4 -0. 8634 0.16 
ARR H -3.2 0. 0268 -0. 40 
FEAR I 4.5 1.546 0.73 
KAM L 3.8 1.517 0. 53 
mam K -3.9 -1.502 -1.10 
蛋氨酸 M 1.9 1.746 0. 26 
EKAM F 2.8 0. 4345 0. 61 
mam P -1.6 -1.721 -0.07 
丝氨酸 S -0.8 -0.3841 -0.26 
Dig T -0.7 -0. 0078 -0.18 
eR w -0.9 -0. 0638 0. 37 
BAR Y 1.3 -0. 4585 0. 02 
LE v 4.2 0. 5056 0.54 
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2. Mk BER ARE 

(1) 肽 键 的 构成 

氨基 酸 之 间 借 肽 键 相 连 ， 这 基本 上 是 由 酸 碱 反 应 形成 的 。 反 
应 后 失去 一 分 子 水 (图 2-2)。 为 了 进一步 理解 蛋白 质 骨 架构 象 , 需 
首先 理解 肽 键 的 本 质 及 其 与 多 肽 角 架 构象 的 联系 。 肽 键 是 一 个 特 
殊 的 键 ， 约 束 着 蛋白 质 的 结构 ， 形 成 一 定 角度 ， 这 种 约束 也 构成 
了 多 肽 的 三 维 骨 架 结构 。 


RI R2 


NH» da —COOH + Niy—cla -COOH 


RI R2 


NH; da —CONH d —COOH 


2-2. CSR A FE» P > ORE A LE TT] 80 HT 
共 价 结合 并 释放 一 个 水 分 子 形成 二 肽 , KRE RL AP TR 
称 为 酰胺 平面 ， 在 C-C 和 C-O 之 间 的 共 价 键 允 许 蛋 白质 
折 杰 成 复杂 的 三 维 结构 。 


(2) 肽 键 的 性 质 
肽 键 具有 双 键 性 能 〈 图 2-3) ， 因 为 形成 肽 键 的 原子 间 存在 着 
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HERH. RATE EK RE, 使 其 具有 刚性 , 不 
能 以 C=N 为 轴 心 旋转 。 肽 键 的 旋转 角 称 Q 角 , 在 多 肽 链 中 很 小 ， 
肽 键 的 双 键 性 能 将 参与 肽 键 的 原子 约束 于 一 个 平面 , 使 参数 fh 
成 180" 角 。 这 部 分 是 因为 大 多 数 二 肽 为 顺 式 结构 ， 在 极 罕见 的 情 
况 下 可 出 现 分 子 构象 转移 ，Q 角 变 成 0"。 这 种 分 子 构象 变化 多 由 
WARES | 


图 2-3 显示 了 肽 键 在 一 定 程度 上 的 双 键 性 能 ， 并 标 出 9 角 和 Psi 
角 。9 角 和 Psi 角 是 与 多 肽 链 骨 架 结构 相关 的 主要 成 角 构 
象 ， 以 二 维 形态 描绘 蛋白 质 骨 和 架 的 三 维 构象 ， 该 区 称 为 
Ramachandran K. 9 角 是 “ 碳 原子 和 相 邻 的 N-H 基 团 的 
夹 角 ， 而 Psi fü di a 碳 原子 与 相 邻 C 间 的 夹 角 。 
(3) 肽 链 
多 肽 链 中 肽 键 与 a- 碳 原子 形成 一 条 骨架 ,氨基 酸 的 侧 链 在 此 
骨架 上 向 外 伸 出 。 多 肽 链 中 的 氨基 末端 在 左边 RER KE k 
链 的 右边 。 肽 链 中 的 氨基 酸 序列 因 蛋 白质 的 不 同 而 不 同 。 每 种 蛋 
白质 各 有 其 固有 的 氨基 酸 序列 。 
3. 有 蛋 和 白质 的 构象 
具有 生物 功能 的 多 肽 及 和 蛋白质 都 是 有 序 结构 ,都 有 其 一 定 的 
氨基 酸 百分比 组 成 及 排列 顺序 (一 级 结构 ), 及 特殊 的 高 级 结构 ( 立 
体 结构 ), 即 所 谓 的 二 级 结构 、 三 级 结构 及 四 级 结构 (并 不 是 所 有 的 
蛋白 质 都 有 四 级 结构 )。 从 而 构成 蛋白 质 折 释 的 途径 (图 2-4) 。 
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一 级 结构 (氨基 酸 序列 》 | 
E 
二 级 结构 (如 "螺旋 .8 片 层 等 ) | 
d = = 
| 超 二 级 结构 或 基 序 (如 锌 指 结构 、 亮 氢 酸 拉链 等 ) | 
: + 
| 三 级 结构 或 结构 域 (蛋白 质 空间 结构 ) 
| 多 聚 体 结构 (如 血红 蛋白 的 四 个 亚 基 复 合体 ) 


图 2-4 蛋白 质 折 得 途径 


蛋白 质 的 一 级 结构 是 多 肽 链 上 氨基 酸 的 线性 排列 顺序 。 了 解 
蛋白 质 一 级 结构 可 更 好 地 理解 分 子 的 三 维 结构 。 蛋 白质 的 高 级 结 
构 的 形成 主要 依靠 非 共 价 键 。 每 个 非 共 价 键 的 键 能 很 小 ,但 众多 的 
非 共 价 键 足 以 提供 很 大 的 引力 ,以 形成 蛋白 质 的 高 级 结构 并 保持 
其 稳定 。 

以 下 是 几 种 作用 力 , 它 们 可 使 多 肽 链 折 释 并 形成 蛋白 质 的 高 
级 结构 : 

"破水 键 或 疏水 作用 

* 静电 引力 

-aR 

* H #48 (Conformational entropy) 

* 范 德 华 力 

SERB. HR) 

COBUKTERI S E A UE 

玖 水 作用 多 在 玖 水 性 或 非 极 性 原子 聚集 处 形成 ,远离 水 分 子 ， 
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就 象 油分 散在 水 中 。 由 于 油分 子 是 朴 水 的 ,会 自动 聚集 ,可 减少 与 
REKAT HR. ESM SURE RI EE RH. 

RAB-RRUALEARTENEWAA. X ECRIRE 
所 处 的 环境 是 在 水 中 ,由 于 水 分 子 之 间 的 氢 键 在 不 断 地 形成 和 断 
裂 ,蛋白 分 子 的 非 极 性 侧 链 就 形成 这 种 聚集 成 篮 的 构象 .利用 其 存 
在 于 水 环境 的 条 件 , 非 极 性 基 团 埋 于 蛋白 质 分 子 内 部 ,这 有 利于 蛋 
白质 分 子 的 疏水 区 与 水 环境 共存 。 

* 测定 侧 链 朴 水 性 的 方法 : 

通常 借 分 隔 实验 完成 。Fauchere 和 Pliska 早期 进行 的 实验 得 
到 了 不 同 侧 链 的 朴 水 性 的 评估 值 。 他 们 将 一 种 人 工 化 合 物 投放 人 
某 介质 中 ,代表 和 蛋白质 核心 及 其 所 处 的 水 环境 ,再 测定 不 同 侧 链 的 
浓 上 度 。 他 们 所 用 的 介质 是 辛 醇 , 它 的 长 链 脂肪 酸 和 羧基 末端 与 极 性 
和 非 极 性 侧 链 均 可 发 生 作用 ,一 些 疏 水 范围 和 朴 水 值 见 表 2-2。 

。ASA(accessible surface area, 易 接近 的 表面 区 域 ) 及 其 与 
疏水 性 的 关系 : 

易 接 近 的 表面 区 域 (ASA) 是 水 分 子 探 针 在 溶质 表面 的 作用 
位 点 ( 见 图 2-5),ASA 可 以 增加 可 溶性 分 子 的 容量 。 侧 链 的 非 极 性 
原子 的 ASA 与 其 疏水 性 近似 成 线性 关系 。 

〈2) 静 电 作 用 力 

通常 指 蛋 白质 分 子 中 离子 对 之 间 的 静电 引力 。 一 般 认 为 静电 
引力 对 蛋白 质 结 构 有 特定 的 作用 ,这 种 作用 力 多 遵循 库伦 定律 。 离 
子 对 所 带电 荷 数 ,带电 基 团 间 的 距离 和 相对 介 电 常数 是 库仑 定律 
的 关键 ,这 使 蛋白 质 离子 对 与 水 环境 之 间 的 相互 作用 达到 最 大 值 。 
对 所 有 带电 离子 对 来 说 ,主要 是 使 其 热力 学 的 最 适 环境 达到 极限 ， 
独立 带电 基 团 存在 于 水 表面 ,并 被 水 分 子 完全 溶解 。 

因此 ,将 这 些 单个 带电 基 团 转移 至 蛋白 质 分 子 内 部 不 大 可 能 ， 
有 研究 表明 暴露 于 溶剂 的 带电 离子 对 或 单个 基 团 可 增强 蛋白 质 分 
子 结构 的 稳定 性 。 

Dag 


Bm EWXAT 3T 


图 2-5 溶质 易 接近 的 表面 区 域 .溶质 在 水 中 有 一 个 特殊 的 表面 称 
为 范 德 华氏 表面 。 水 分 子 与 溶质 表面 作用 占据 一 定 的 空 
间 ,这 个 空间 可 以 增加 可 溶性 分 子 的 容量 。 围 绕 范 德 华氏 
表面 一 图 的 球形 水 分 子 中 心 附 近 区 域 决 定 水 易 接近 的 表 
面 区 域 , 这 部 分 区 域 在 模拟 药物 - 受 体 相互 作用 中 是 非常 
有 用 的 。 


氧 键 对 蛋白 质 结构 及 其 稳定 性 起 到 多 大 的 作用 ,并 不 十 分 明 
确 。 但 氢 键 有 规律 地 出 现在 "螺旋 和 8 片 层 结构 中 ,对 蛋白质 二 级 
结构 的 形成 可 能 有 作用 。 侧 链 - 侧 链 之 间 , 侧 链 - 主 链 之 间 也 存在 氢 
键 。 被 埋 在 内 部 的 氢 键 对 蛋白 质 分 子 的 结构 有 稳定 作用 ,其 主要 原 
因 可 认为 是 蛋白 质 -溶剂 ,蛋白质 - 蛋 白质 氢 键 之 间 的 竞争 结果 。 

(4) 范 德 华 力 

大 多 数 蛋白 质 的 折 释 结构 要 利用 分 子 中 各 种 原子 的 紧密 聚 
集 , 蛋 白质 分 子 的 核心 原子 往往 比 表面 的 排列 整齐 。 形 成 折 秋 结构 
时 ,蛋白 质 核 心 部 位 的 原子 往往 较 表 面 的 或 未 折 释 时 的 原子 牢固 

(5) 共 价 键 

除了 肽 键 以 外 ,蛋白 质 结 构 中 最 有 意义 的 共 价 键 是 二 硫 键 。 与 
不 含 二 硫 键 的 肽 链 相 比 ,二 硫 键 可 使 肽 链 受 到 一 定 程 度 地 约束 ,从 
而 起 到 稳固 折 又 结构 的 作用 。 一 般 来 说 ,增加 共 价 连接 的 长 度 , 相 
应 地 会 提高 结构 的 稳定 性 。 但 这 个 规则 仅 适 用 于 含有 单个 二 朴 键 
的 肽 链 。 在 小 分 子 蛋白 质 中 ,二 硫 键 的 稳固 作用 更 大 一 些 。 

二 、 蛋 白质 功能 

蛋白 质 是 具有 多 种 功能 的 生物 大 分 子 。 
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1. 酶 的 催化 作用 

酶 是 生物 催化 剂 , 绝 大 多 数 的 酶 是 蛋白 质 。 没 有 它 ,生命 无 法 
维持 。 酶 的 基本 作用 是 加 速生 物化 学 反应 ,否则 ,就 会 因为 反应 速 
度 过 惕 而 无 法 维持 生命 活动 . 酶 的 催化 底 物 具有 特异 性 ,其 酶 促 反 
应 效率 与 细胞 内 底 物 浓度 密切 相关 。 这 种 对 底 物 浓度 的 依赖 性 避 
兔 了 反应 终 产物 生成 过 多 ,而 最 终 使 细胞 自身 受到 损伤 . 酶 对 底 物 
的 专 一 性 与 酶 的 空间 构象 密切 相关 。 尤 其 是 酶 的 活性 中 心 的 空间 
构象 ,可 使 酶 具有 专 一 性 ,而 与 其 它 酶 相 区 别 , 因 此 ,了 解 酶 的 结构 
特征 有 助 于 我 们 掌握 酶 的 功能 。 根 据 已 知 结构 的 蛋白 质 去 理解 蛋 
白质 的 结构 特征 ,这 对 结构 尚未 明确 的 序列 ,在 寻找 其 结构 与 功能 
的 关系 上 ,显得 尤为 重要 .对 那些 重要 和 蛋白质 的 结构 与 功能 关系 的 
深入 了 解 ,使 人 们 掌握 了 控制 这 些 酶 活性 的 有 力 武 器 ,并 可 有 效 地 
防止 酶 的 失 活 。 目 前 认为 酶 的 失 活 与 许多 疾病 的 发 生发 展 有 关 。 

2. 调节 蛋白 的 作用 

这 些 蛋 白质 的 主要 作用 是 调节 细胞 内 的 其 它 大 分 子 的 活性 。 
调节 过 程 与 蛋白 质 的 浓度 有 关 , 许 多 这 类 蛋白 是 通过 负 反 馈 调节 
机 制 发 挥 作用 的 。 在 大 多 数 负 反 馈 环 路 中 ,下 游 产物 浓度 增加 会 阻 
碍 上 游 产物 的 形成 .在 DNA 复制 和 RNA 翻译 中 均 可 存在 负 反馈 
调节 。 

3. 存储 

某 些 离子 .代谢 产物 .或 小 分 子 可 与 蛋白 质 结合 而 保存 在 生物 
体内 。 例 如 , 铁 蛋 白 通过 其 亚 铁血 红 素 基 团 与 铁 离子 的 结合 将 铁 离 
子 贮存 于 肝脏 内 。 

4. 运输 

有 些 蛋 白质 具有 生物 转运 功能 , 转 铁 蛋白 和 血红 蛋白 就 是 两 
种 转运 蛋白 ,在 体内 分 别 运输 铁 离子 和 氧 。 

5. 信号 传递 

有 些 蛋 白质 在 生物 体 和 细胞 信号 传递 中 有 特殊 的 作用 ,它们 
大 多 是 小 分 子 和 激素 的 细胞 受 体 。 结 合 小 分 子 或 激素 后 ,产生 信号 
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最 终 引发 细胞 内 的 反应 。 

6. 免疫 作用 

免疫 系统 中 的 大 分 子 大 多 是 蛋白 质 和 多 肽 。 例 如 ,免疫 球 蛋 
白 。 这 是 一 个 庞大 的 蛋白 质 家 族 ,参与 多 种 免疫 反应 。 

7. 形成 细胞 的 结构 

蛋白 质 中 有 相当 一 部 分 是 结构 蛋白 ,主要 起 机 械 支持 作用 。 胶 
原 蛋 白 是 多 细胞 有 机 体内 含量 最 多 的 结构 蛋白 ,几乎 所 有 组 织 都 
有 胶原 蛋白 
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核酸 是 生命 的 遗传 物质 ,是 每 一 个 已 知 生 物体 基因 组 的 构成 
组 分 .这 些 分 子 由 DNA( 脱 氧 核糖 核酸 ) 和 RNA( 核 糖 核酸 ) 构 成 ， 
细胞 用 一 些 蛋 白质 作 “ 工 具 ” 读 取 其 基因 组 信息 并 翻译 为 其 它 蛋 白 
质 , 以 完成 和 控制 细胞 的 活动 过 程 ,包括 新 陈 代谢 、 产 生生 理 信和 号、 
能 量 的 贮存 和 转化 以 及 细胞 结构 的 构建 等 。 

一 .DNA 和 RNA 结构 

核酸 (nucleic acid) 包 括 脱 氧 核 糖 核 酸 (deoxyribonucleic acid, 
DNA) 和 核糖 核酸 (ribonnucleic acid,RNA)。 前 者 是 遗传 信息 的 
贮存 和 携带 者 ;而 后 者 则 主要 参与 遗传 信息 的 表达 过 程 。 

核酸 亦 称 多 核 苷 酸 ,是 由 数 十 个 以 至 数 千 万 的 核 苷 酸 构成 的 
生物 大 分 子 。 核 苷 酸 是 各 种 核酸 的 组 成 单位 , 它 由 碱 基 (Cbase) 、 核 
糖 (ribose)、 脱 氧 核糖 (deoxyribose)、 以 及 磷酸 (phosphate) 几 种 分 
子 连接 而 成 。 

在 达尔 文 的 物种 起 源 学 说 发 表 了 10 年 之 后 ,当时 还 不 知道 核 
酸 是 遗传 分 子 , 但 遗传 物质 的 研究 成 为 化 学 、 医 学 、 生 物 学 的 主要 
课题 方向 之 一 .1869 年 ,Friederich Miescher 首次 从 细胞 中 提取 出 
一 种 物质 ,这 种 物质 表现 出 酸 的 性 质 ,溶解 性 依赖 于 溶液 的 pH 
值 .他 把 这 种 物质 命名 为 核酸 ,但 却 并 不 知晓 这 种 物质 正 是 基因 的 
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实体 结构 。 在 Gregor Mendel 证 明 种 属 的 特异 性 可 作为 独立 的 实 
体 结构 遗传 下 去 时 ,“ 基 因 ” 这 一 构想 就 已 产生 了 。DNA 作为 基因 
的 独特 的 载体 ,不 仅 已 于 1944 年 被 Oswald Avery 所 证 明 , 同 时 
Alfred Hershey 和 Margaret Chase 也 分 别 证 实 了 这 一 点 。 这 距 
Miescher 首次 报道 核酸 的 时 间 约 为 75 年 。 九 年 后 ,James Watson 
和 Sir Francis Crick 在 1953 年 4 月 5 日 出 版 的 一 期 英国 的 《自然 》 
杂志 上 发 表 了 一 篇 关于 DNA 分 子 双 螺旋 结构 模型 的 论文 。 这 一 
期 杂志 同时 发 表 了 M. Wilkins AR. Franklin 关于 DNA 结晶 的 
X 线 衡 射 研究 的 支持 性 论文 。 这 一 发 现 使 得 遗传 密码 在 日 后 得 以 
破译 。 这 些 密 码 决定 了 蛋白 质 生物 合成 所 需 的 信息 ,并 通过 复制 机 
制 得 以 遗传 ,使 子 代 具 有 与 亲 代 基因 组 完全 相同 的 拷贝 。 

核酸 是 由 核 苷 酸 组 成 的 线性 多 育 体 。 核 苷 酸根 据 其 芳香 环 碱 
基 结 构 不 同 分 为 厌 哈 和 喀 啶 两 种 一 一 与 磷酸 核糖 基 团 相连 。 它 们 
的 线性 结构 以 三 联 体 的 形式 按 顺 序 读 取 。 正 是 三 联 体 中 的 核 苷 酸 
排列 决定 了 每 个 基因 的 特异 性 及 一 种 有 机 体 区 别 于 其 它 有 机 体 的 
特征 。RNA 是 所 有 有 机 体 中 的 主要 核酸 物质 ,由 腺 味 叭 核糖 核 苷 
(A) 、 鸟 味 叭 核糖 核 苷 (G)、 胞 喀 喧 核糖 核 苷 (C) 和 尿 喀 啶 核糖 核 
苷 (U) 组 成 ;DNA 是 脱氧 核糖 核酸 ,四 个 碱 基 分 别 为 腺 呆 叭 (A)、 
SR (G) JI ERE CC RUM I REDE CT), DNA. 携带 遗传 信息 ,其 
双 链 构象 形成 双 螺 旋 结 构 ,RNA 则 是 单 链 结构 ,但 RNA 可 与 
DNA 的 单 链 杂 交 ,在 细胞 内 形成 双 螺旋 结构 。 

双 螺 旋 结 构 的 稳定 性 由 两 股 单 链 对 应 碱 基 对 之 间 的 静电 作用 
力 维持 ,并 且 A 只 能 与 配对 ,G 也 只 能 与 C 配对 ,这 种 精确 配 
对 , 受 核 苷 酸 芳香 环 间 氢 键 的 热力 学 和 构象 限制 。DNA 双 螺 旋 是 
核酸 二 级 结构 的 重要 形式 。 

二 .遗传 密码 

国外 有 学 者 认为 :遗传 密码 的 发 现 标志 着 生物 信息 学 的 开端 。 
因为 对 每 一 种 基因 及 其 相应 的 蛋白 质 来 讲 , 其 DNA RNA 和 氨基 
酸 序列 是 唯一 的 .这 一 点 ,现在 已 经 能 够 鉴定 。 科 学 家 们 很 快 发 现 ， 
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早先 的 假设 “一 个 基因 对 应 一 个 蛋白 "是 不 正确 的 ,这 是 由 于 基因 
结构 具有 复杂 的 内 含 子 和 外 显 子 组 成 ,并 且 在 所 有 生命 形式 中 
DNA 重组 过 程 是 非常 丰富 的 。 分 子 生 物 学 家 将 这 些 过 程 在 实验 室 
中 重复 ,获得 成 功 -一 产生 了 DNA 重组 技术 - . 这 是 基因 工程 
的 基础 。 

遗传 密码 的 作用 是 将 四 种 核 苷 酸 的 排列 顺序 翻译 成 20 种 氨 
基 酸 的 排列 顺序 。 每 3 个 核 苷 酸 为 一 组 ,决定 蛋白 质 的 一 个 氨基 酸 
(图 2-6)。 这 种 独特 的 过 程 在 所 有 的 细菌、 动 植物 中 均 可 观察 到 ， 
并 且 翻 译 的 顺序 只 能 是 从 核酸 到 蛋白 质 ,而 不 能 反 向 进行 。 即 核酸 
只 能 是 蛋白 质 合成 的 模板 ,但 蛋白 质 不 能 作为 基因 的 模板 ,这 就 是 
分 子 生物 学 的 中 心 法 则 ,反映 了 所 有 生命 有 机 体 生长 繁殖 的 过 程 ， 
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图 2-6 NCBI 物 种 分 类 站 点 的 标准 遗传 密码 表 , 该 站 点 还 列 出 了 许多 
种 生物 的 遗传 密码 使 用 表 以 及 与 标准 遗传 密码 不 同 之 处 。 
一 些 病毒 的 基因 组 中 只 有 RNA 分 子 ,根据 中 心 法 则 ,人 们 预 
计 这 些 病毒 直接 以 RNA 在 宿主 细胞 内 指导 蛋白 质 的 合成 。 而 实 
际 上 .进入 宿主 细胞 后 ,病毒 依靠 一 种 反 转录 蛋白 将 RNA 转录 为 
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DNA , 称 为 互补 DNA 或 cDNA。 再 由 一 种 称 为 整 和 酶 的 蛋白 催 
化 ,将 cDNA 插入 宿主 基因 组 中 。 以 RNA 为 模板 合成 DNA 的 过 
程 ,在 非 病毒 生物 体内 并 不 发 生 。 催 化 这 一 过 程 的 酶 称 逆转 录 酶 ， 
道 转 录 酶 在 实验 室 的 应 用 使 分 子 生物 学 取得 了 巨大 的 进步 。 

逆转 录 酶 以 及 嗜 热 菌 体内 的 热 稳定 DNA 聚合 酶 是 当代 分 子 
生物 学 重要 的 研究 工具 。 应 用 聚合 酶 链 式 反应 (PCR) 和 cDNA 合 
成 技术 可 以 迅速 地 从 一 小 片 组 织 中 鉴别 出 新 的 基因 .在 过 去 ,这 些 
方法 多 用 于 法 医学 的 研究 和 实践 中 。 如 今 ,在 应 用 此 技术 的 基础 
上 ,新 的 DNA 序列 (以 及 氨基 酸 序列 ) 不 断 地 被 发 现 。 为 了 存 贮 、 
处 理 以 及 破译 这 些 遗 传 信息 ,生物 信息 学 在 其 中 发 挥 着 独特 的 作 
用 。 

遗传 密码 具有 通用 性 ,在 数量 上 多 于 其 编码 的 氨基 酸 的 数目 。 
明白 这 一 点 对 理解 生物 体 基因 与 其 蛋白 质 结构 和 生命 多 样 性 之 间 
的 关系 至 关 重要 。 

遗传 密码 的 数目 是 元 余 的 ,三 联 体 密码 (密码 子 ) 有 64 种 ,而 
编码 的 氨基 酸 仅 有 20 种 。 一 些 氮 基 酸 由 一 种 以 上 密码 子 编码 , 包 
括 终止 码 。 其 中 起 始 码 也 编码 蛋氨酸 。 这 说 明 氨基 酸 序列 比 DNA 
序列 更 保守 。 这 与 进化 的 机 制 有 密切 的 联系 。 因 为 有 些 DNA 的 点 
突变 并 不 引起 氨基 酸 序列 的 变化 ,这 种 点 突变 称 为 “沉默 突变 ”。 由 
于 它们 对 表现 型 无 影响 ,因而 不 受 自然 选择 的 作用 。 有 机 体 并 不 使 
用 全 部 的 密码 子 ,而 往往 只 选择 一 种 ,从 而 使 密码 子 过 剩 现象 受到 
限制 。 这 称 为 密码 子 惯用 性 或 倾向 性 。 这 种 选择 性 在 不 同 生物 体 
是 不 一 样 的 ,密码 子 倾向 性 在 应 用 DNA 重组 技术 时 非常 重要 。 当 
一 种 生物 的 基因 克隆 后 重组 到 另 一 生物 的 基因 组 内 时 ,有 的 情况 
下 密码 子 的 倾向 性 可 导致 合成 无 功能 的 蛋白 质 ,或 者 影响 看 白质 
合成 的 水 平 .密码 子 倾向 性 也 可 作为 一 种 保护 机 制 , 对 抗 外 源 性 病 
原 体 DNA 的 侵袭 。 机 体 未 使 用 的 密码 子 对 其 它 外 源 DNA 可 起 到 
终止 码 的 作用 ,从 而 有 效 的 抑制 了 病原 体 繁殖 所 必须 的 功能 蛋白 
质 的 合成 。 


第 二 章 ”生物 大 分 子 “43。 


密码 子 倾向 性 是 遗传 密码 通用 性 的 结果 。 除 一 些 细胞 器 的 
DNA 外 ,所 有 生物 体 , 包 括 病毒 在 内 ,都 使 用 相同 的 密码 子 编码 
20 种 氨基 酸 用 于 蛋白 质 合 成 。 这 意味 着 基因 可 在 不 同 生物 体 间 传 
递 , 这 也 是 现代 生物 技术 工程 的 基础 ,从 而 也 使 生物 信息 学 的 研究 
不 必 依据 细 胞 起 源 来 辨别 基因 序列 所 表达 的 信息 。 这 种 通用 性 , 增 
加 了 数据 库 中 进行 统计 分 析 的 DNA 序列 的 样本 含量 。 同 时 ,使 动 
物 模 型 如 小 鼠 、 果 蝇 、 大 肠 杆 菌 的 基因 (这 是 我 们 所 熟知 的 ) 与 人 类 
相应 基因 进行 比较 变 得 更 为 容易 .DNA 序列 的 相似 性 可 使 相关 生 
物体 的 基因 得 以 快速 鉴定 克隆 和 测序 。 另 外 ,一 种 生物 体 丢失 的 
生物 信息 也 可 根据 这 一 点 来 推测 。 据 此 ,我 们 也 可 将 果 蝇 和 线虫 等 
模式 生物 体内 的 “工作 过 程 " 与 人 的 新 陈 代谢 进行 类 比 研究 。 

三 、 基 因 与 进化 

DNA 是 生物 体 的 遗传 物质 。 在 80 多 年 前 ,有 人 开始 用 gene 
一 词 来 表示 遗传 物质 。 那 时 ,对 基因 与 DNA. 之 间 的 关系 几乎 一 无 
所 知 ,因此 有 人 认为 基因 是 没有 物质 基础 的 空洞 无 物 的 概念 ,甚至 
时 至 上 个 世纪 50 年 代 , 有 教科 书 还 坚持 认为 基因 不 过 是 一 种 唯心 
的 腾 测 。 现 在 ,人 们 清楚 地 认识 到 :基因 是 DNA 大 分 子 上 的 一 个 
个 片段 ,有 复制 转录 等 主要 功能 ,是 生物 遗传 繁殖 的 物质 基础 。 

基因 是 所 有 生命 的 遗传 单位 ,由 脱氧 核糖 核酸 即 DNA 组 成 ， 
但 有 些 病毒 如 人 类 免疫 缺陷 病毒 (HIV ) ,为 反 转 录 病 毒 , 其 基因 组 
由 RNA 构成 。 根 据 基因 组 的 形态 , 即 有 无 细胞 核 出 现 , 所 有 的 生 
物体 可 分 为 两 大 类 , 真 核 生物 和 原核 生物 。 原 核 生 物 是 单 细胞 生 
物 , 又 可 分 为 两 个 王国 : 真 细菌 属 和 原生 质 属 。 

尽管 形态 特征 上 相似 ,但 真 细菌 与 原生 质 的 基因 组 结构 是 不 
同 的 ,三 大 生物 王国 的 分 型 ( 指 真 核 生物 、 真 细菌 和 原生 质 ) 是 由 分 
析 各 自 的 核糖 体 RNA 而 得 出 的 。 但 是 根据 许多 蛋白 质 和 新 陈 代 
谢 途 径 的 研究 结果 ,原生 质 属 分 支 也 表现 出 真 核 生 物 和 真 细菌 的 
某 些 特征 。 

生物 信息 学 为 解决 生物 进化 树 的 正确 顺序 和 正确 分 类 问题 提 
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供 了 一 种 新 的 分 析 工具 。 很 明显 , 仅 靠 基因 型 分 类 或 表现 型 分 类 是 
无 法 解决 这 一 问题 的 。 分 子 生 物 学 并 不 能 简单 地 取代 进化 生物 学 
较 早 的 分 支 学 科 ( 诸 如 :从 形态 、 结 构 来 进行 生物 的 分 类 研究 ) , 它 
更 是 一 种 补充 。 针 对 两 种 基本 基因 组 结构 的 起 源 和 共存 ,对 于 谁 先 
产生 和 二 者 如 何 共存 问 题 , 进 化 生物 学 家 们 展开 了 激烈 的 讨论 , 包 
含 了 三 大 生物 王国 内 全 部 生物 的 基因 组 计划 的 开展 ,将 有 助 于 我 
们 对 这 一 问题 解决 。 比 较 基因 组 学 从 分 子 的 水 平 来 研究 进化 的 现 
象 , 它 有 利于 我 们 了 解 缤纷 繁复 的 生物 之 间 的 共性 和 本 质 。 

* 真 细菌 

真 细 著 是 单 细胞 原核 生物 ,具有 高 度 聚 集 基因 结构 和 组 织 的 
基因 组 。 所 有 基因 都 含 一 个 编码 区 ,编码 相应 蛋白 质 的 氨基 酸 序 
列 ; 与 编码 区 相连 的 是 控制 区 , 它 决定 DNA 转录 和 翻译 时 蛋白 质 
结合 DNA 的 方式 。 通 常 ,基因 被 分 成 一 个 个 功能 单元 ,被 和 谐 地 
调节 着 。 这 些 基因 可 编码 出 构成 新 陈 代谢 通路 的 多 种 酶 ,这 种 相应 
的 多 基因 结构 称 操纵 子 。 操 纵 子 反映 的 是 基因 的 功能 单元 ,及 其 上 
调和 下 调 作 用 ,比如 ,基因 表达 ,由 单一 的 转录 单元 协同 完成 。 

* 真 核 生 物 和 原生 质 

原生 质 和 真 核 生物 的 基因 组 结构 较真 细菌 复杂 ,它们 的 基因 
不 再 是 简易 .单一 的 编码 框 , 而 是 由 外 显 子 (编码 区 ) 和 内 含 子 ( 非 
编码 区 ) 共 同 构成 的 。 真 核 生物 基因 组 含 5% 一 15%% 的 编码 区 , 即 
基因 ,有 大 量 的 DNA 并 不 编码 蛋白 质 ,而 且 至 今 人 们 不 知道 其 功 
能 。 这 些 DNA 可 能 在 基因 组 中 具有 重要 的 调节 作用 ,尤其 是 在 减 
数 分 裂 中 发 挥 作用 。 减 数 分 裂 是 有 性 生殖 中 染色 体 DNA 重组 的 
重要 过 程 。 

原生 质 属 在 形态 上 与 真 细菌 很 难 区 别 , 在 基因 组 结构 和 部 分 
新 陈 代谢 途径 上 与 真 核 生 物 更 接近 。 在 一 些 已 完成 测序 的 原生 质 
属 基因 组 中 ,这 一 点 更 为 明显 。 但 是 ,生物 界 的 分 类 主要 依据 参与 
代谢 的 酶 的 类 别 而 定 的 .原生 质 属 可 能 是 最 古老 的 生物 ,或 者 是 现 
存 生物 中 与 推测 出 的 地 球 生命 的 共同 祖先 最 为 相似 的 生物 种 属 。 
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同样 ,遗传 密码 的 普遍 存在 暗示 了 单 细 胞 是 所 有 生物 的 共同 祖先 。 
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第 三 章 ”数据 库 和 搜索 工具 


今天 ,生物 信息 学 已 成 为 生命 科学 最 为 活路 的 研究 领域 之 一 。 
数据 库 是 生物 信息 学 重要 的 工作 平台 ,是 其 基本 构成 之 一 .各 种 各 
样 的 生物 学 数据 库 不 断 出 现 , 其 数量 增长 十 分 迅速 ,同时 数据 库 的 
内 部 结构 亦 日 趋 复杂 。Nnucleic Acid Research 杂志 每 年 第 一 期 都 
公布 互联 网 上 最 新 的 生物 学 数据 库 资 源 ,2001 年 1 月 公布 的 数据 
FEA 280 个 ,而 这 个 数字 在 2002 年 1 月 增长 到 了 349 个 。 且 数据 
库 的 类 型 更 加 丰富 ,专业 性 更 强 ,几乎 覆盖 了 生命 科学 的 各 个 领 
域 。 目 前 ,这 类 数据 库 的 服务 已 实现 了 高 度 的 计算 机 和 网 络 化 . 算 
法 和 软件 的 进步 ,数据 库 的 一 体 化 、 服 务 器 -客户 模式 的 建立 使 之 
成 为 生物 .医药 .农业 等 学 科 的 强 有 力 的 研究 工具 。 因 人 类 基因 组 
等 各 类 计划 的 实施 ,也 促使 数据 库 中 的 数据 以 极 高 的 速度 增长 .至 
2002 年 1 月 ,GenBank 已 有 1,458.5 万 条 核酸 序列 ,SWISS- 
PROT 有 10,2387 条 蛋白 质 序 列 ,PDB 收录 17,082 套 结构 信息 。 

数据 库 涉及 到 的 内 容 主 要 包括 两 大 部 分 :数据 库 组 织 和 数据 
库 开发 工具 。 前 者 有 著名 的 美国 国家 生物 技术 信息 中 心 (NCBI) 、 
欧洲 生物 信息 学 研究 所 (EBI) 以 及 日 本 生物 信息 学 服务 器 
(GenomeNet-Japan) 等 等 ;而 后 者 则 包括 同 源 序列 搜索 基本 工具 
BLAST fil FASTA (Search Tools) 等 。 本 书 将 就 有 关内 容 作 一 介 
绍 。 


第 一 节 ”计算 机 工具 和 数据 库 


当前 ,生命 科学 家 正 致力 于 寻找 所 有 生命 体 中 内 在 的 遗传 编 
码 , 及 其 在 对 抗 病原 体 时 的 意义 。 阐明 DNA 分 子 的 三 联 密码 子 及 
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其 与 翻译 产物 的 关系 是 了 解 绝 大 部 分 以 碳 元 素 为 基础 的 内 在 生命 
形式 、 机 制 的 第 一 步 生 物 学 不 仅仅 是 一 门 关 于 生命 体 实验 性 研究 
的 学 科 ,而 且 在 过 去 几 十 年 中 ,生物 数据 的 指数 性 增长 已 给 这 门 学 
问 增加 了 预测 性 的 内 容 . 今 天 ,人 们 运用 基础 物理 和 化 学 的 相关 定 
律 ,使 得 许多 生物 学 现象 得 以 解释 。 利 用 不 断 丰 富 的 数据 ,许多 现 
存 的 生物 学 疑 团 将 最 终 得 到 解决 。 这 将 促进 新 的 生物 规律 及 其 定 
律 的 发 现 , 并 且 有 利于 我 们 对 那些 十 分 复杂 的 生命 体系 有 一 个 深 
入 的 理解 。 


公共 领域 生物 
信息 学 组 织 
an 
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图 3-1 公共 领域 生物 信息 学 服务 器 


管理 ,识别 和 鉴定 那些 指数 级 增长 的 生物 数据 时 ,计算 机 工具 
和 数据 库 最 为 重要 (图 3-1)。 美 国 国家 生物 技术 信息 中 心 (NCBI) 
和 欧洲 生物 信息 研究 所 (EBI) 是 两 家 主要 的 生命 科学 信息 服务 机 
构 , 负 责 处 理 这些 十 分 庞大 的 数据 .它们 拥有 的 可 靠 的 数据 库 和 分 
析 软 件 ,是 当前 生命 科学 界 极 具 价值 的 研究 工具 .每 天 有 大 量 新 提 
交 的 条 目 进 入 它们 的 数据 库 , 这 些 机 构 的 职员 将 新 的 数据 添加 到 
适当 的 数据 库 中 。 这 将 保证 那些 订阅 他 们 数据 库 的 科学 界 同仁 能 
及 时 地 更 新 知识 ,促进 了 各 门 学 科 的 进步 。 而 这 些 机 构 ( 比 如 
NCBI 和 EBI) 提 供 的 服务 又 是 由 快捷 、 容 量 大 的 计算 机 实现 的 ,这 
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些 计算 机 能 够 完成 必要 的 分 析 任务 ;因特网 界面 则 使 这 种 电子 对 
话 更 易于 进行 。 
一 ,美国 国家 生物 技术 信息 中 心 (NCBID) 
1988 年 11 月 ,美国 参议 院 意识 到 构建 计算 机 数据 处 理 系 统 
在 生物 医学 和 生物 化 学 领域 中 的 必要 性 ,并 通过 法 案 帮 助 国家 医 
学 图 书馆 (National Library of Medicine,NLM) 建 立国 家 生物 技 
术 信 息 中 心 (National Center for Biotechnology Information, 
NCBI) (图 3-2)。 国 家 医学 图 书馆 的 任务 主要 是 维护 生物 医学 数 
据 , 而 国家 生物 技术 信息 中 心 则 特别 涉足 新 型 分 析 软 件 的 开发 ,以 
帮助 理解 在 致 病 过 程 中 扮演 关键 角色 的 分 子 和 遗传 的 活动 过 程 。 
其 主要 的 四 大 任务 是 : 
(1) 创建 适合 分 析 、 储 存 分 子 生物 学 ,遗传 学 及 生物 化 学 等 各 
类 数据 的 自动 化 仪器 ; 
(2) 促 进 科学 界 ( 如 科研 人 员 、 医 学 工作 者 等 ) 对 可 获得 的 数据 
库 和 分 析 软 件 的 使 用 ; 
(3) 整 理 全 球 的 科研 成 果 , 收 集 生物 学 数据 ， 
(4) 对 于 重要 的 生物 分 子 的 结构 -功能 关系 实施 计算 机 分 析 、 
研究 。 
国家 生物 技术 信息 中 心 分 为 三 个 分 支 机 构 :计算 生物 学 分 部 
(Computational Biology Branch)、 信 息 工 程 分 部 (Information 
Engineering Branch) 和 信息 资源 分 部 (Information Resources 
Branch), NCBI 的 科研 人 员 包 括 计 算 机 专家 ,分 子 生 物 学 家 、 数 学 
家 、 生 化 学 家 、 医 学 研究 人 员 和 结构 生物 学 家 。 国 家 生物 技术 信息 
中 心 工作 人 员 通 力 合作 ,运用 数学 和 计算 机 工具 研究 多 种 疾病 的 
分 子 基 础 。 其 研究 的 三 个 主要 层面 是 : 
(1) 对 人 们 关注 的 基因 及 基因 产物 的 序列 进行 分 析 ; 
(2) 更 好 地 理解 .分 析 基 因 的 组 成 ; 
(3) 预 测 被 研究 分 子 的 结构 (如 蛋白 质 )。 
分 析 步 又 包括 :通过 将 新 的 蛋白 或 多 核 苷 酸 基因 序列 与 已 知 
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基因 序列 或 蛋白 序列 进行 比较 ,从 而 得 到 与 新 序列 同 源 的 已 知 基 
因 或 蛋白 。 对 于 那些 功能 尚 不 清楚 或 在 数据 库 中 缺乏 已 知 同 源 基 
因 的 新 基因 而 言 ,了 解 该 基因 的 整个 基因 组 构成 可 能 是 很 有 效 的 
方法 。 用 结构 已 知 的 同 源 基因 预测 结构 未 知 的 分 子 结构 ,使 我 们 能 
预测 结构 及 功能 尚 不 清楚 的 分 子 可 能 具有 的 功能 特性 。 


NCBI 
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图 3-2 ”美国 国家 生物 技术 信息 中 心 (NCBI) 结 构图 


国家 生物 技术 信息 中 心 (NCBI) 支 持 的 数据 库 : 


1. 蛋白 质 序列 , 即 实验 获得 的 蛋白 质 序列 以 及 来 源 于 核 背 酸 
文库 的 核 苷 酸 翻译 序列 。 
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(1) 元 余 蛋 白质 序列 库 ( 如 PIR 数据 库 ,由 PIR1 十 PIR2 十 
PIR3 组 成 ) i 
(2) 非 元 余 或 元 余 较 少 的 蛋白 质 序 列 库 (如 NR, SWISS- 

PROT .PDB) 

2. FCIRE AI (DNA 和 RNA), 这 些 DNA 和 RNA 序列 来 源 
于 非 自 动 测序 计划 (如 :GenBank), 或 自动 测序 仪 ( 如 : 
dbEST) 。 

(1) 宛 余 核 苷 酸 序列 数据 库 ( 如 :dbEST) 

(2) 非 兄 余 或 宛 余 较 少 的 核 苷 酸 序列 数据 库 ( 如 :GenBank) 


宛 余 性 的 含义 

由 于 许多 科学 工作 者 的 研究 是 各 自 进行 的 ,这 就 导致 了 在 确定 基因 和 和 蛋 
白质 时 使 用 了 重复 的 命名 。 这 个 问题 在 新 的 研究 领域 提交 数据 的 过 程 中 , 显 
得 非常 突出 。 这 样 ,同一 DNA 序列 在 不 同名 称 、 记 录 和 注释 下 ,出 现 了 不 止 
一 次 。 而 只 有 这 一 领域 的 专家 才能 认 出 ,这 些 看 似 不 同 的 记录 其 实 指 的 是 同 
一 事物 。 这 就 好 象 在 电话 号 码 本 上 以 三 种 形式 一 一 姓 、 名 .昵称 来 写 你 的 名 
字 , 而 每 一 个 都 是 指 你 本 人 ,其 后 的 电话 号 码 是 相同 的 。 宛 余 性 在 生物 学 数据 
库 中 是 一 个 相当 复杂 的 问题 , 每 个 数据 库 都 有 各 自 的 元 余 序 列 定义 。 大 多 数 
数据 库 , 尤 其 是 在 大 型 的 研究 计划 中 ,多 采用 自动 方式 解释 元 余 性 。 这 种 方法 
没有 手工 干预 定量 准确 ,但 速度 快 。 另 一 方面 ,为 了 数据 的 完整 性 , 非 元 余数 
据 库 也 允许 有 宛 余 信息 序列 。 当 然 , 宛 余 性 也 有 用 武之 地 ,如 在 数据 库 处 理 
DNA 序列 时 。 两 个 相互 竞争 的 实验 室 , 有 时 可 能 会 发 表 同 一 基因 的 核酸 序 
列 , 但 却 有 一 个 或 几 个 碱 基 不 同 的 情况 。 这 是 因为 选择 不 同 株 别 的 研究 动物 
而 存在 突变 所 造成 的 差异 ,还 是 测序 上 的 错误 呢 ? 如 果 这 个 基因 均 取 自 同一 
生物 体 ,那么 说 明 有 一 方 在 测序 上 存在 错误 .事实 上 ,这 是 一 个 无 意识 的 质量 
控制 的 过 程 。 


NCBI 中 使 用 频率 最 高 的 蛋白 序列 数据 库 清单 : 


"Alu :这 是 一 套 精 选 出 来 的 已 翻译 的 alu 重复 序列 ,在 查询 
序列 中 , 它 可 以 标 出 可 能 的 alu 重复 序列 。 这 一 数据 库 还 可 通过 匿 
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4 FTP Æ NCBI 查询 。( 在 /pub/jmc/alu 目录 下 ) 
* E. coli: 这 是 只 负责 装载 E.coli 基因 组 CDS 的 数据 库 。 

。Kabat: 有 关 免 疫 学 的 序列 数据 库 。 

* Month :这 是 一 个 展示 新 近 ( 最 近 30 天 以 内 ) 修 订 资 料 的 数 
据 库 ,包含 从 GenBank 获得 的 CDS 翻译 序列 以 及 从 PDB、 
SWISS-PROT 和 PIR 数据 库 获 得 的 其 他 的 蛋白 序列 提交 条 目 。 

* NR (non-redunant): 这 是 一 个 包括 所 有 非 元 余 CDS 翻译 
序列 数据 库 , 包 含 从 GenBank 获得 的 CDS 翻译 序列 以 及 从 PDB、 
SWISS-PROT 和 PIR 数据 库 中 获得 的 蛋白 序列 存储 信息 。 在 此 
数据 库 中 ,相同 序列 的 蛋白 合并 为 单一 存储 信息 。 

* PDB: 包 含 三 维 结构 已 知 的 蛋白 序列 。 蛋 白质 数据 库 
(Protein Data Bank,PDB) 组 织 位 于 纽约 长 岛 的 Brookhaven 国家 
得 。PDB 的 绝 大 多 数 条 目 是 非 元 余 的 ,如 果 同 一 序列 条 目 有 多 个 
结构 信息 ,就 保留 质量 高 的 那 一 个 。 如 对 于 晶体 结构 ,采用 其 分 辩 
值 最 小 (如 1. 8 埃 优 于 2.2 埃 ) 的 条 目 。 然 而 ,其 他 变量 ,如 结合 了 
金属 或 配 体 的 复杂 结构 ,在 特定 的 生物 中 同一 序列 允许 有 多 种 结 
构 信息 存在 。 

。SWISS-PROT: 这 是 一 个 来 源 于 SWISS-PROT 数据 库 的 
最 近 发 布 的 蛋白 序列 条 目的 数据 库 。 现 由 EMBL (欧州 分 子 生物 
学 实验 室 ) 的 分 部 EBI 支持 。 这 是 一 个 通过 信息 相互 参照 获得 的 
蛋白 质 序列 数据 库 ,可 以 从 互联 网 上 获得 。SWISS-PROT 是 非 元 
余数 据 库 , 由 日 内 瓦 大 学 的 Amos Bairoch 维护 。 

。Yeast :酵母 (S. cerevisinae) 蛋 白 序列 数据 库 , 储 存 从 酵母 
蛋白 测序 计划 中 获得 的 序列 。 

NCBI 应 用 频率 最 多 的 核 苷 酸 数据 库 清 单 : 

* alu; 它 允 许 在 查询 序列 中 标 出 可 能 的 alu 重复 序列 。 这 一 
数据 库 还 可 通过 匿名 FTP 经 NCBI. GE /pub/jmc/alu 目录 
下 ) 
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+ dbEST :这 是 个 收录 GenBank, EMBL,DDBJ 中 EST 条 目 
的 非 元 余数 据 库 。ESTs 是 通过 自动 测序 得 到 的 cDNA 一 端的 序 
列 , 很 少 有 人 为 的 干预 因素 。 因 此 ,相对 于 其 他 序列 数据 库 , 这 将 增 
加 错误 率 .最 常见 的 错误 为 测序 错误 、 异 源 序列 污染 (heterologous 
sequence contaminations) 和 转录 重复 序列 。 

+ dbSTS :这 是 一 个 收集 GenBank ,EMBL 、DDBJ 的 STS 条 
目的 非 元 余数 据 库 。 

E.coli: RES E. coli FHA BFA. 

* EPD: 真 核 细胞 启动 子 数 据 库 (eukaryotic promotor 
database) ,包含 公共 数据 库 中 已 知 的 所 有 真 核 细 胞 启动 子 序列 。 

，GSS; 基 因 组 纵览 序列 (Genome Survey sequence), 基 因 组 
序列 数据 的 一 端 数据 、 外 显 子 捕获 序列 及 alu PCR 序列 。 

。HTGS:; 高 通 量 基 因 组 序列 数据 库 (high throughput 
genomic sequence), 

“Kabat: 处 理 免 疫 学 问题 的 序列 数据 库 。 

* Mito: 专 门 处 理 线粒体 序列 的 数据 库 。 

* Month :这 是 一 个 展示 新 近 ( 最 近 30 天 以 内 ) 修 订 条 目的 数 
据 库 ,其 条 目 可 以 在 GenBank、.EMBL、DDBJ 和 PDB 序列 数据 库 
中 同时 查 到 。 

*nr: 这 是 一 个 非 元 余 的 GenBank, EMBL,DDBJ 和 PDB 全 
部 序列 的 数据 库 。 它 不 包含 EST、STS、GSS 或 HTGS 的 序列 条 
目 。 完 全 相同 序列 条 目 只 出 现 一 次 。 

+ PDB: 这 个 数据 库 的 序列 来 源 于 已 知 三 维 结构 的 分 子 。 

* Vector: 这 是 GenBank 的 载体 序列 子 集 库 。 

+ Yeast :酵母 (S， cerevisiae) tA AAT BF P CUR PE PAE 
从 酵母 基因 组 计划 及 其 他 相关 的 酵母 测序 计划 中 获得 的 序列 。 

NCBI 提供 的 主要 服务 : 

NCBI 网 站 的 服务 器 提供 以 下 8 种 主要 数据 库 和 分 析 工具 : 

(1) PubMed (Public MEDLINE) 
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(2) BLAST (Basic Local Aligment Search Tool) 

(3) Entrez 

(4) BankIt 

(5) OMIM (Online Mendelian Inheritance in Man) 

(6) Taxonomy 

(7) Structure 

(8) Books 

1. PubMed 

PubMed 是 国家 医学 图 书馆 CNLM) 的 搜索 服务 器 ,用 户 可 以 
在 MEDLINE 和 pre-MEDLINE 上 获得 超过 11,000,000 个 引用 
条 文 ( 截 至 2002 年 1 月 )。 与 网 上 杂志 及 相关 数据 库 的 链接 ,可 以 
使 用 户 方便 快捷 地 检索 到 有 关 信 息 ,而 且 目前 可 以 通过 相关 链接 
得 到 许多 种 杂志 的 全 文 。 它 可 以 用 关键 词 检索 含有 相关 主题 的 期 
刊 文章 , 为 了 增加 查找 的 针对 性 ,还 可 应 用 多 个 关键 词 。 为 方便 用 
户 , 作 者 姓名 和 杂志 名 称 也 可 作为 查询 标准 。 

2. BLAST : (Basic Local Alignment Search Tool) 

局 部 排列 基本 搜索 工具 (Basic Local Alignment Search 
Tool) 是 一 套 相 似 性 搜寻 程序 ,可 识别 特定 序列 的 分 类 和 可 能 的 同 
源 性 。 这 些 程序 的 功能 强大 ,能 分 析 DNA 和 和 蛋白 序列 。 其 详细 情 
况 将 在 有 关 的 章节 里 给 予 介绍 。 

3. Entrez 

研究 人 员 有 义务 编制 出 原始 的 非 宛 余 的 数据 资料 ,以 方便 人 
们 对 特定 规律 的 理解 .为 避免 或 减少 发 表 材 料 中 的 宛 余 现象 ,研究 
人 员 必 须 确保 自身 工作 的 原创 性 ,这 并 非 易 事 。 但 相关 数据 库 中 详 
尽 的 查询 工具 可 使 这 件 工作 变 得 相对 容易 一 些 .例如 ,如 果 研 究 人 
员 拟 确认 某 蛋 白质 家 族 的 一 个 特性 ,很 明显 其 下 一 步 工作 是 确保 
该 项 研究 具有 新 意 , 换 句 话说 ,这 是 新 发 现 吗 ? 为 回答 这 一 不 可 小 
视 的 问题 ,必须 查询 包含 了 相关 关键 词 的 所 有 引用 条 文 。 于 是 ,可 
能 会 有 如 下 三 种 结果 :第 一 ,你 进入 了 充满 元 余 信 息 的 死胡同 。 在 
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这 种 情况 下 ,所 查 资料 与 以 前 的 研究 相同 或 非常 接近 。 这 时 ,聪明 
的 研究 者 就 会 停止 对 宛 余数 据 的 研究 ,而 转向 关注 其 他 方面 的 课 
题 . 第 二 种 情况 是 没有 相似 的 发 现 , 此 时 该 研究 与 已 知 的 引用 条 文 
完全 无 关 。 这 是 好 事 , 也 可 能 是 坏事 。 它 可 能 是 重要 的 原始 发 现 ， 
但 也 可 能 是 各 种 雇 误 所 为 。 此 时 ,研究 者 必须 进一步 加 以 调查 、 验 
证 原始 记录 ,以 确保 其 发 现 的 正确 性 。 或 者 , 找 出 原始 记录 以 及 自 
己 工作 中 的 潜在 错误 。 第 三 ,查询 到 的 相关 信息 ,既是 对 先行 研究 
的 支持 ,又 不 是 以 往 研究 的 重复 。 对 于 研究 者 来 说 ,这 是 一 种 理想 

的 情况 。 相 关 的 引证 可 以 作为 此 后 深入 研究 的 支持 性 参考 。 无 论 
”如何 ,进行 可 靠 而 有 创新 性 的 研究 ,研究 者 必须 运用 搜索 引擎 。 它 
不 仅 高 效 而 且 可 以 使 人 们 获得 定期 更 新 的 相关 数据 资料 。 一 般 来 
说 ,这 些 由 政府 支持 的 搜索 工具 是 现 有 公共 领域 内 可 信 度 最 高 的 
软件 , 且 具 有 友好 的 界面 。 研 究 人 员 可 以 很 容易 地 从 互联 网 上 获 
取 。 

NCBI 下 的 Entrez 是 最 受 欢 迎 的 搜索 引擎 之 一 。Entrez 网 页 
界面 (http ://www. ncbi. nlm. nih. gov/Entrez/) 允许 用 户 从 众多 
可 靠 的 数据 库 中 获得 文献 目录 和 生物 学 资料 。 例如 , 可 从 SWISS- 
PROT、PDB、PIR 以 及 PRF 检索 蛋白 序列 信息 。 从 Brookhaven 
PDB 检索 结构 已 知 的 蛋白 信息 ， 这 些 蛋白 已 并 人 NCBI 的 分 子 模 
型 数据 库 ， 也 叫做 MMDB。 翻 译 的 蛋白 和 DNA 序列 可 从 其 上 一 
级 DNA 序列 数据 库 (如 : GenBank, EMBL 和 DDBJ) 中 检索 。 就 
文献 目录 或 引证 搜索 而 言 ，Entrez 利用 PubMed 的 文献 目录 数据 
库 ， 可 在 MEDLINE 和 pre-MEDLINE 上 获得 超过 11,000,000 
篇 生物 医学 文章 。 通过 Entrez 也 可 获得 染色 体 基因 定位 和 基因 组 
的 数据 。 对 某 一 特定 的 搜索 ，Entrez 提供 多 个 标准 。 例 如 ， 搜 索 
某 一 相应 数据 库 ， 你 可 以 发 现 从 一 个 给 定 的 单词 开始 的 所 有 可 能 
术语 。 在 术语 后 加 一 星 号 ，Entrez 可 搜索 到 所 有 以 该 术语 开头 的 
词 条 。 如 搜索 “inter x ”可 得 到 以 inter 开头 的 所 有 术语 ， 如 
interstetium, intermolecular 等 等 。 还 可 以 利用 Entrez 的 智能 搜 
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索 ， 即 利用 短语 或 多 组 单词 搜索 。Entrez 可 以 将 相关 术语 组 织 到 
一 起 而 排除 掉 不 相关 的 术语 。 

例如 , 为 了 查找 某 一 指定 作者 (如: Wu M) 关于 某 一 给 定 主 
EH (如 : apoptosis) 的 所 有 可 能 引文 ， 用 户 可 以 键 人 有 关 作者 的 
术语 (如 : Wu MO 及 感 兴趣 的 主题 (如: apoptosis), Entrez 将 
自动 识别 和 组 织 相关 的 术语 (如: 作者 的 姓 及 字母 的 大 小 写 ), 使 
搜索 引擎 从 有 关 Wu M 和 apoptosis 中 寻找 到 所 有 的 相关 资料 
(“Wu M" X apoptosis) 。 使 用 自动 组 词 功能 ，Entrez 还 可 以 组 
词 。 和 否则 ， 将 被 视 为 分 开 的 术语 。 捅 和 人 引号 ， 可 使 Entrez 将 似乎 
不 相关 的 多 个 术语 视 为 一 个 (如 “brca 1?) 。 然 而 ，NCBI 建议 用 
户 只 让 Entrez 组 织 一 些 特定 的 术语 以 减少 不 准确 的 检索 。 如果 检 
索 的 清单 太 长 Entrez 将 终止 搜索 操作 ， 并 且 会 提醒 用 户 。 

通过 标志 符 检索 是 查询 某 一 特定 引文 或 序列 最 精确 的 方法 之 
一 。 标 志 符 是 一 种 索引 数字 ， 在 相关 数据 库 中 为 特定 的 序列 或 文 
章 指定 的 一 个 标志 符号 。 例 如 ，MEDLINE 引文 标志 符 指 的 是 
UID 码 ， 而 属于 序列 的 标志 符 称 做 GI 码 。 检 索 MEDLINE 的 
UID88067898 引文 ， 用 户 只 需 在 Entrez 搜索 引擎 输入 
UID88067898， 就 能 找 出 这 一 被 指定 UID fj MEDLINE 引文 。 

Entrez 上 有 大 量 的 搜索 项 目 。 由 于 有 适应 性 的 属性 ， 有 经 验 
的 用 户 会 发 现 它 们 非常 有 用 并 能 节约 时 间 。 以 下 介绍 的 一 些 搜索 
项 目 ， 可 以 满足 用 户 的 特殊 需要 : 

* Keyword 允许 用 户 搜索 一 套 专门 的 指定 术语 。 这 些 术语 与 
NCBI 可 使 用 的 数据 库 相关 (如 GenBank, EMBL. PDB, DDBJ, 
SWISS-PROT, PIR 或 PRF). 

* Accession 允许 用 户 搜索 与 蛋白 、 核 苷 酸 序列 、 结 构 或 者 基 
因 组 的 记录 相对 应 的 序列 号 。 

+ Author Name 含有 发 表 论 文 的 作者 的 相关 信息 资料 。 这 是 
MEDLINE 特有 的 项 目 。 

+ Affiliation 用 于 搜索 作者 的 所 属 单位 和 地 址 。 
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+ Journal Title 用 于 搜索 发 表 文 章 所 在 的 期 刊 名 称 。 用 户 可 
以 应 用 List Terms， 浏 览 期 刊 缩 写 名 清单 〈 如 the Journal of 
Biological Chemistry 缩写 成 J Biol Chem), WEAR. 

+E. C. Number 是 由 酶 学 委员 会 分 配给 各 种 酶 的 指定 码 。 

+ Feature Key 是 用 于 搜索 表示 某 种 DNA 特定 属性 的 关键 
词 的 一 个 搜索 项 目 。 

* Gene Symbol 用 来 搜索 给 定 基因 的 标准 名 称 。 

* MEDLINE UID 用 MEDLINE 标志 符 搜索 引文 。 

* MeSH Terms 用 于 搜索 MeSH 主题 词 。 是 一 套 为 
MEDLINE 编制 索引 的 关键 词 。 

* MeSH Major Topic 包含 了 所 有 在 MeSH 中 被 标记 为 非常 
重要 的 术语 。 

+ Publication Date 用 于 搜索 文章 发 表 、 序列 公布 或 提交 的 日 
期 。 

* Modification Date 资料 被 收入 Entrez 的 日 期 。 

* Page Number 发 表 文章 的 页 码 。 

* Property 告诉 用 户 引 文 包含 的 序列 类 型 。 

* PubMed ID 给 定 引 文 的 PubMed 标志 符 。 

* Organism 用 于 搜索 与 蛋白 或 核 背 酸 序列 条 目 有 关 的 生物 
体 的 名 称 (包括 普通 名 称 和 学 术 名 称 ) 

* Protein Name 用 于 搜索 与 一 个 序列 数据 相关 的 蛋白 质 的 
名 称 。 

。Seqld 给 定 序列 的 串 标 志 符 。 

* Substance 搜索 在 Chemical Abstract Service (CAS) 上 登 
记 的 化 学 物质 的 名 称 。 

* Title Words 用 于 搜索 仅 出 现 于 某 一 记录 的 标题 里 的 词 。 

* Text Words 用 于 搜索 与 某 一 给 定 记录 相关 的 说 明 C "free 
text”) 。 对 于 蛋白 和 核 苷 酸 序列 ， 则 包括 给 定 序列 的 定义 、 说 明 、 
命名 和 描述 。 在 MEDLINE 条 目 中 , 包括 给 定 记录 的 标题 和 摘要 。 
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+ Volume 搜索 所 要 文章 的 卷 号 。 

如 果 在 某 一 特定 的 搜索 栏 内 找 不 到 所 要 的 资料 ， 那 么 用 Al 
Fields 或 者 Text Words 重复 搜索 将 会 有 所 帮助 。 在 Entrez 中 交 
MAE AND, 仅 查找 被 AND 分 开 的 包含 所 有 给 定 术语 的 相关 信 
息 资料 。 Entrez 将 连结 符 指定 为 OR, 可 使 用 户 查 找到 包含 任何 一 
个 给 定 术语 的 相关 文献 。 最 后 , 差别 选项 是 BUTNOT, 使 用 户 能 
查找 到 包含 了 上 一 个 术语 而 不 包含 下 一 个 术语 的 所 有 文献 。 搜 索 
成 功 后 , 用 户 可 以 在 文献 清单 中 进一步 检索 , 直至 达到 要 求 为 止 。 
搜索 结果 的 清单 按 文件 从 最 近 到 过 去 的 时 间 顺 序 出 现 ， 用 户 既 可 
检索 所 有 文献 也 可 从 所 查 清单 中 选择 最 相关 的 报告 。 以 下 是 几 种 
针对 不 同 的 检索 文档 的 不 同 的 查看 格式 ， 

PubMed 文章 可 以 用 Citation, Abstract, MEDLINE 或 者 
ASN. 1 典型 格式 查看 。 

* Citation 格式 能 显示 文章 的 标题 、 摘要 、MeSH Terms ME 
要 信息 。 

+ Abstract 格式 只 显示 文章 的 标题 和 摘要 。 

* ASN. 1 是 应 用 于 PubMed 文章 的 一 种 特殊 格式 。 

* MEDLINE 则 以 MEDLARS 格式 显示 文章 。 

GenBank/GenPept, Report, ASN. 1, Graphic View 及 
FASTA 是 一 些 用 于 查看 蛋白 或 核 苷 酸 序列 记录 的 格式 。 

* GenBank/GenPept 是 标准 的 GenBank 或 GenPept 数据 库 
Xf. c 

+ Report 允许 用 户 以 GenBank Report 格式 查看 序列 记录 。 

* Graphic View 使 用 户 能 查看 序列 条 目的 图 表 资 料 包 括 排 
列 信 息 。 

+ FASTA 格式 对 于 给 定 条 目的 进一步 分 析 最 为 有 用 。 

许多 排列 工具 要 求 用 户 在 FASTA 格式 下 输入 所 关心 的 序列 
顺序 。Structure Summary 和 ASN. 1 格式 用 于 查看 结构 信息 ， 
Structure Summary 格式 用 于 获取 给 定 分 子 结构 资料 的 概要 。 例 
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如 ， 晶 体 蛋 白 结构 ， 这 种 查看 格式 可 使 用 户 获 取 关 于 给 定 结构 的 
解析 度 、 作 者 资料 、 提 交 日 期 、 复 杂 化 的 配 基 以 及 其 他 基本 信息 。 
这 种 格式 还 允许 用 户 查看 分 子 的 三 维 形式 。Graphic View 也 用 于 
查看 基因 组 记录 资料 。 

所 有 被 提 及 的 格式 都 可 作为 文件 保存 在 用 户 文档 中 。 三 种 主 
要 保存 格式 是 : Text, HTML 和 MIME。 如 用 户 拥有 GenBank 的 
MIME 浏览 器 ，MIME 格式 是 特别 有 用 的 。 否 则 ， 输 出 文件 必须 
保存 在 Text 或 HTML 格式 中 应 用 。 如 用 网 页 浏览 器 查看 ， 则 可 
用 HTML 格式 。Text 格式 缺乏 HTML 标签 , 但 可 用 标准 文字 处 
理 软件 ， 如 使 用 Microsoft Word 来 查看 。 

4. Banklt 

Banklt 是 GenBank 通过 互联 网 进行 操作 的 序列 提交 服务 器 。 
它 允 许 用 户 通过 界面 友好 的 网 页 浏览 器 将 新 的 序列 提交 到 
GenBank。 该 序列 及 所 有 相关 信息 被 传递 到 提交 信箱 并 送 到 
GenBank, GenBank 工作 人 员 再 与 提交 当事人 取得 联系 ， 给 该 序 
列 指定 序列 号 。 

5. OMIM (Online Mendelian Inheritance in Man) 

这 是 关于 人 类 基因 和 基因 疾病 的 数据 库 ， 由 Victor A. 
Mckusick 博士 和 他 在 Johns Hopkins 大 学 的 同事 以 及 一 些 其 他 
捐助 人 共同 维护 .The OMIM Morbid Map 也 由 该 站 点 支持 ,在 遗 
传 疾病 的 基础 上 绘制 基因 位 点 图 谱 。Entrez、GDB、The Davis 
Human/Mouse Homology Map, the Online Mendelian 
Inheritance in Animals (OMIA), the Human Gene Mutation 
Database (HGMD), the Alliance of Genetic Support Groups, the 
Cedars-Sinai Medical Center Genetics Image Archive, the Jackson 
Laboratory, RetNet (retinal genetic disorders) , HUM-MOLGEN 
以 及 the locus-specific mutation databases 都 是 一 些 可 在 OMIM 
得 到 的 资源 。 该 站 点 特别 适应 那些 关注 遗传 疾病 的 医生 和 医学 科 
RAR. 若 要 给 OMIM 的 图 象 和 文章 以 最 适当 的 诠释 , 那么 对 科 
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学 概念 及 其 研究 进展 的 坚实 理解 是 十 分 必要 的 。 

6. Taxonomy 

NCBI 的 Taxonomy 主页 是 包含 一 些 生物 的 普通 名 称 和 科学 
名 称 的 生物 分 类 数据 库 ， 这 些 生物 或 多 或 少 都 包含 有 一 些 序列 信 
息 。 该 服务 器 允许 用 户 得 到 种 属 的 遗传 信息 ， 观 察 相 关 和 不 太 相 
关 的 种 属 间 是 如 何 联系 的 。 进 化 树 是 这 种 联系 的 代表 。 这 些 关联 
是 基于 相似 的 蛋白 或 核 苷 酸 序列 上 的 。 该 主页 还 与 NCBI 其 他 服 
务 器 链接 (如 Structure 和 PubMed). 

7. Structure 

NCBI 的 Structure 主页 支持 与 结构 分 析 相 关 的 分 子 模型 数 
据 库 (MMDB) 和 各 种 各 样 的 软件 工具 。MMDB 的 信息 是 从 the 
Brookhaven Protein Data Bank (PDB) 中 获得 的 ， 包括 重要 生物 
大 分 子 X 线 晶 体 衍射 或 核磁 共振 (NMR ) 的 结果 。Cn3-D 是 NCBI 
下 为 MMDB 服务 的 结构 可 视 软件 ， 可 在 Entrez/ Cn3-D FTP 站 
AKG. Structure 也 提供 如 PKB 和 Threading 的 搜索 工具 , BAK 
件 可 通过 FTP 站 点 获得 ， 并 要 求 起 用 Splus。 该 站 点 的 Entrez/ 
PubMed 链接 便于 查找 所 关注 的 分 子 的 应 用 及 相关 信息 的 搜索 工 
作 。 

8. Books 

这 是 NCBI 与 作者 和 出 版 机 构 合 作 建 立 的 书籍 目录 查询 服务 
项 目 , 称 为 “Bookshelf”, 主要 收集 生物 医学 书籍 。 在 PubMed 的 
条 目下 ， 有 相关 书目 的 链接 。 经 过 Entrez 的 查询 可 得 到 每 个 
PubMed 条 目 中 有 标注 “Books” 的 链接 , 点 击 该 链接 可 以 查询 到 
与 每 个 PubMed 条 目 在 主题 上 相关 的 生物 医学 书籍 目录 。 另 外 ， 
还 可 以 通过 Entrez 直接 输入 查询 的 主题 词 ， 检 索 相关 的 书目 。 

NCBI 的 Hot Spots: 

Hot Spots 是 NCBI 主页 提供 的 最 常用 的 一 些 数据 库 和 搜索 
工具 的 链接 ， 包 括 以 下 内 容 : 


(1) Cancer Genome Anatomy Project 
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(2) Clusters of Orthologous Groups 
(3) Coffee Break 

(4) Electronic PCR 

(5) Gene Expression Omnibus 


o 
LY 


Genes and disease 

(7) Human genome resources 

(8) Human map viewer 

(9) Human/mouse homology maps 

(10) LocusLink 

(11) Malaria genetics & genomic 

(12) ORF finder 

(13) Reference sequence project 

(14) Retrovirus resources 

(15) Serial analysis of gene expression 

(16) SKY/CGH database 

(17) Trace archive 

(18) UniGene 

(19) VecScreen 

1. Cancer Genome Anatomy Project 

肿瘤 基因 组 解剖 计划 (Cancer Genome Anatomy Project, 
CGAP) 由 美国 国立 瘤 症 研究 所 (National Cancer Institute, 
NCD 建立 和 管理 , 与 NCBI 有 密切 的 合作 。 肿瘤 基因 组 解剖 计划 
旨 在 得 到 用 于 解码 肿瘤 细胞 分 子 解剖 的 信息 和 工具 。 它 由 几 个 互 
补 的 数据 库 组 成 : Human Tumor Gene Index, Molecular 
Fingerprinting, Cancer Chromosome Aberration Project, Genetic 
Annotation Initiative 及 Mouse Tumor Gene Index 等 。 其 目的 是 
研究 正常 细胞 、 癌 前 病变 细胞 和 肿瘤 细胞 的 基因 表达 谱 ， 以 便 最 
终 能 够 促进 肿瘤 病人 的 检测 、 诊 断 和 治疗 。CGAP 网 站 可 提供 人 
类 、 小 鼠 正常 和 肿瘤 组 织 的 基因 组 数据 ， 包 括 表 达 序 列 标签 
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(ESTs)、 基 因 表 达 谱 、 单 核 苷 酸 多 态 性 (SNPs) 和 细胞 遗传 学 信 
息 等 等 。 它 还 提供 了 查询 和 分 析 数 据 的 信息 学 工具 以 及 由 该 计划 
开发 出 来 的 试剂 的 使 用 方法 和 资源 信息 (http://cgap. nci. nih. 
gov/). 

NCBI 5j NCI 的 合作 工作 呈 流 水 线 方式 ， 首 先 产生 大 量 的 表 
达 序 列 标签 ( EST), 然后 储存 人 dbEST 数据 库 , 经 过 计算 机 软件 
对 EST 的 分 析 和 总 结 ， 将 其 整 和 成 UniGene 和 HomoloGene 数 
WE, 然后 通过 加 入 手工 注解 并 形成 LocusLink 数据 库 。 NCBI 站 
点 每 周 贴 出 文库 报告 ， 对 NCI 构建 的 EST 文库 提供 文库 分 布 的 
信息 ，CGAP 利用 这 些 信 息 来 指导 将 来 的 文库 构建 和 测序 工作 。 
NCBI 创建 了 第 一 个 公共 CGAP WA, HA CGAP 设计 所 有 的 分 
HIR. NCBI 开发 了 在 线 工 具 一 一 数字 差异 显示 (Digital 
Differential Display) ， 用 来 在 cDNA 文库 之 间 比 较 计算 机 产生 的 
基因 表达 谱 。 

基因 表达 系列 分 析 (Serial Analysis of Gene Expression， 
SAGE) Æ CGAP 中 分 析 基 因 表 达 的 重要 方法 ,这 种 方法 的 原理 将 
在 本 书 有 关 章 节 中 介绍 。NCBI 建立 了 序列 数据 库 用 来 储存 
SAGE 产生 的 表达 谱 数 据 。SAGE 数据 也 收入 Gene Expression 
Omnibus 数据 库 中 。 

CGAP 数据 库 中 提供 的 资源 包括 8 个 方面 ， 下 面 分 别 将 其 作 
一 简单 的 介绍 : 

(1) Genes 

CGAP 对 于 每 个 基因 都 开发 了 一 个 Gene info 页 面 ， 每 个 页 
面 提 供 了 该 基因 与 NCBI 和 NCI 数据 库 相 关 条 目的 链接 信息 ,这 
些 信息 包括 :与 UniGene、LocusLink、OMIM 、DTP search, cDNA 
Libraries, Cluster Assemblies 和 SNPs 等 数据 库 的 链接 ; 细胞 遗 
传 学 定位 和 Mitelman 断裂 点 信息 ; 蛋白 相似 性 、 人 类 和 小 鼠 的 同 
WA, IMAGE (integrated Molecular Analysis of Genomes and 
their Expression) 协议 来 源 的 序列 链接 、 全 长 MGC (Mammalian 
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Gene Collection) 克隆 链接 和 Gene Ontology 功能 分 类 。CGAP 
Genes 工具 列表 : 
* Gene finder; 按照 特定 标准 查找 单个 或 多 个 基因 的 工具 。 
* Gene Ontology Browser: 通过 分 子 功能 、 生 物 学 过 程 和 细 
胞 组 分 对 人 和 小 鼠 的 基因 分 类 。 

* Nucleotide BLAST: 通过 CGAP 界面 , ARAKI 
列 的 代表 基因 。 

* Lists of Candidate, Validated, and Confirmed SNPs: 包含 
单 核 苷 酸 多 态 性 的 基因 信息 。 

* CGAP SNP Index: 通过 基因 名 称 、 符 号 和 GenBank 序列 
号 查找 代表 SNPs. 

* SNP Gene Viewer: 将 人 类 SNPs 定位 于 参考 序列 和 MGC 
序列 ， 预 测 蛋白 编码 的 变化 。 

(2) Chromosomes 

瑞典 的 Mitelman, Mertens 和 Johansson 博士 曾 系 统 地 总 结 
了 经 常 发 生 的 肿瘤 相关 染色 体 畸 变 , 并 建立 了 Mitelman 肿瘤 染 
色 体 畸变 数据 库 (Mitelman Database of Chromosome 
Aberrations in Cancer ) (http://cgap. nci. nih. gov/ 
Chromosomes/Mitelman) , 这 个 工作 发 表 在 1997 年 4 月 出 版 的 
Nature Genetics 杂志 特刊 上 ,题目 为 “A genome-wide map of 
chromosomal breakpoints in human cancer”. 目前 ,所 有 常见 的 肿 
瘤 染 色 体 畸变 可 以 在 NCBI CGAP 的 站 点 Recurrent 
Chromosome Aberrations in Cancer (http://cgap. nci. nih. gov/ 
Chromosomes/RecurrentAberrations) 进行 交互 式 查 询 。 

NCBI 还 与 CGAP 的 一 个 分 支 计 划一 一 肿瘤 染色 体 畸 变 计划 
(Cancer Chromosome Aberration Project, CCAP) 紧密 合作 。 
CGAP 目前 正在 制作 跨度 为 1 一 2Mb 的 人 染色 体 BAC 克隆 ,这 些 
克隆 都 是 通过 荧光 原 位 杂交 (Fluorescent In Situ Hybridization, 
FISH) 的 方法 定位 的 , 这 些 已 经 定位 的 BAC 克隆 可 以 提供 给 其 他 
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研究 组 织 。 
另外 ，CGAP 还 提供 了 Genetic and Physical SNP Maps, 该 
图 谱 可 以 显示 每 条 染色 体 上 预测 的 和 经 证 实 的 SNPs 的 遗传 和 物 
理 位 点 。 
(3) Tissues 
CGAP Tissues 资源 提供 来 源 于 组 织 的 基因 表达 信息 。 
Library Finder 工具 可 以 帮助 查找 组 织 特异 性 的 文库 。 该 资源 包 
括 了 几 种 分 析 组 织 基因 表达 分 析 工 具 : 
* Gene Library Summarizer (GLS): 在 特定 的 cDNA 文库 中 
查找 所 有 基因 。 
* cDNA xProfiler: 用 于 在 两 个 cDNA 文库 之 间 比 较 基因 表 
达 。 
* Differential Gene Expression Displayer (DGED): 用 于 在 
两 个 cDNA 文库 之 间 比 较 基因 表达 的 统计 学 差异 。 
* SAGEmap xProfiler; xProfiler 程序 比较 一 个 cDNA 在 不 
同 cDNA 文库 中 的 表达 情况 。 
* SAGEmap Virtual Northern; 以 图 形 形 式 显示 一 个 基因 在 
不 同 cDNA 文库 中 出 现 的 频率 ， 代 表 其 表达 丰 度 。 
(4) Pathways 
Pathways 资源 包括 了 BioCarta 公司 和 KEGG 代谢 途径 和 信 
号 转 导 途径 图 谱 的 链接 ， 网 站 提供 了 代谢 途径 和 信号 转 导 途径 的 
精美 图 片 和 图 例 ， 见 图 3-3. 
(5) Tools 
本 窗口 是 CGAP 基因 表达 分 析 工 具 的 汇总 , 方便 用 户 从 网 上 
得 到 这 些 工具 。 
(6) Methods 
该 链接 提供 了 CGAP 在 分 析 基 因 表达 中 使 用 的 组 织 准 备 、 
cDNA 文库 构建 的 详细 方法 。 另外 还 包括 了 CGAP 应 用 的 激光 捕 
获 显 微 切割 的 方法 介绍 。 


+ 64° 生物 信息 学 概论 


E 


让 和 一 一 


图 3-3 CGAP 提供 的 BioCarta 中 Caspase 分 子 相 关 凋 亡 信号 转 导 
通路 图 Chttp://cgap. nci. nih. gov/Pathways/BioCarta/ 
caspasePathway) 


(7) Reagents 

该 站 点 包括 CGAP 对 研究 单位 提供 的 CDNA 克隆 、BAC 38 
隆 和 cDNA 文库 的 目录 以 及 查询 方法 。 

(8) Catalog 

Catalog 列 出 了 CGAP f (E B9 MAR. WHA A) BY 
Chromosomes, Clones, Genes, Tissue and Librarys 和 SNPs 等 
方面 的 资源 。 

CGAP 也 通过 光谱 核 型 (Spectral Karyotyping, SKY) 和 比 
较 基 因 组 杂交 (Comparative Genomic Hybridization, CGH) 的 方 
法 来 确认 肿瘤 中 的 染色 体 畸 变 ， 并 且 专 门 有 SKY/CGH 数据 库 
(http://www. ncbi. nlm. nih. gov/sky/) 来 收录 这 些 信息 。 

2. Clusters of Orthologous Groups 

该 链接 内 容 在 第 四 章 第 四 节 有 详细 介绍 。 

3. Coffee Break 
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Coffee Break 收集 了 一 些 短小 精 悍 的 综合 报告 ， 它 们 的 内 容 
涉及 到 利用 NCBI 的 工具 发 现 的 最 新 生物 医学 进展 。 每 篇 文章 大 
约 是 400 字 左右 ， 且 附 有 精美 的 相关 图 片 (图 3-4)， 及 在 研究 工 
作 中 如 何 应 用 NCBI 工具 和 资源 的 超级 链接 。 其 行文 活泼 ,但 不 失 
严谨 和 实用 性 。 


‘The EAST protein from 
assembly of a nucieoskel 


图 3-4 Coffee Break 的 界面 

4. Electronic PCR 

电子 PCR (electronic PCR) 是 一 种 可 查找 DNA 序列 中 是 否 
含有 序列 标签 位 点 (STS) 的 软件 。 在 基因 组 计划 中 非常 重要 的 一 
项 工作 ,就 是 确定 应 用 于 基因 组 作 图 的 标志 一 一 序列 标签 位 点 , 测 
序 工作 完成 后 就 可 以 利用 电子 PCR 查询 其 中 是 否 包 含 STS F 
列 , 这样 就 将 基因 组 测序 和 作 图 的 工作 联系 起 来 .另外 ,电子 PCR 
还 可 以 检测 根据 STS 序列 设计 的 PCR 引物 是 否 完全 与 STS 序列 
匹配 、 方 向 是 否 正确 以 及 PCR 产物 的 分 子 量 。 

5. Gene Expression Omnibus 


Gene Expression Omnibus 收集 基因 表达 的 有 关 数 据 ， 包 括 
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来 自 于 不 同 平台 的 数据 ,如 : 利用 微 阵列 (microarray) 基因 表达 


数据 、 高 密度 赛 核 苷 酸 阵列 (high-density oligonucleotide array, 
HDA)、 杂 交 滤 膜 (hybridization filter) 和 基因 表达 系列 分 析 
(Serial Analysis of Gene Expression, SAGE) 等 方法 得 到 的 基因 
表达 数据 。 
6. Genes and disease 
NCBI 基因 和 疾病 站 点 收集 由 基因 变异 导致 的 遗传 性 疾病 ， 
数据 库 中 大 部 分 数据 是 已 经 研究 清楚 的 由 单个 基因 突变 直接 引起 
的 遗传 性 疾病 。 目 前 共 收 集 了 73 种 遗传 性 疾病 , 分 为 六 大 类 , 每 
种 疾病 的 遗传 位 点 都 在 染色 体 上 以 图 形 形 式 标 出 , 并 与 PubMed、 
LocusLink #1 OMIM 数据 库 有 链接 (http://www. ncbi. nlm. nih. 
gov/disease/) 。 
下 面 以 肿瘤 为 例 , 介绍 本 站 点 可 获得 的 数据 资源 .NCBI 的 基 
因 与 疾病 站 点 (http://www. ncbi. nlm. nih. gov/disease/Cancer. 
html) 中 列 出 了 多 种 肿瘤 相关 基因 的 变异 : 
JURE: BRCA-1 (17 号 染色 体 )、BRCA-2 (13 号 染色 
体 ) 
+ Burkitt KEV: myc (8 号 染色 体 ) 
+ 慢性 丹 系 白血病 : BCR (22 号 染色 体 )、ABL (9 号 染色 
体 ) 
+ SM: MLHI (3 号 染色 体 )、MSH2 fl MSH6 (2 号 染色 
W 
* 肺癌: SCLC] (3 号 染色 体 ) 
.恶性 黑色 素 瘤 : CDKN2 (9 号 染色 体 ) 
“多 发 性 内 分 泌 肿 瘤 : MEN] (11 SRA) 
+ 神经 纤维 瘤 : NF2 (22 号 染色 体 ) 
+ p53 肿瘤 抑制 基因 : 位 于 17 号 染色 体 
+ BRM: DPC4 (CSMAD4)， 位 于 18 号 染色 体 
- HARA: HPC] (YT 1 号 染色 体 ) 
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* ras #3: HRAS (位 于 11 号 染色 体 ) 
“视网膜 母 细 胞 瘤 : RBI (位 于 13 号 染色 体 ) 


。67 


* von Hippel-Lindau 综合 症 : VHL (位 于 3 号 染色 体 ) 


网 站 中 各 种 肿瘤 相关 基因 都 有 与 染色 体 定 位 、GenBank 序 


列 、PubMed 文献 和 OMIM 数据 库 的 链接 。 


7. Human genome resources 


人 类 基因 组 资源 主页 提供 了 人 类 基因 组 计划 相关 内 容 的 链 
接 ， 包 括 了 人 类 基因 组 测序 、 作 图 、 遗 传 变异 和 基因 表达 的 核心 
研究 资源 ， 可 以 以 图 形 的 方式 利用 Human map viewer 直接 搜索 
人 染色 体 的 作 图 、 测 序数 据 。 其 图 形 界面 非常 直观 ， 便 于 科学 工 


作者 查询 。 


8. Human map viewer 


Human map viewer 是 查询 人 类 染色 体 相 关 数 据 的 图 形 界面 
的 程序 ， 它 以 不 同 的 染色 体 图 形 的 方式 来 显示 (图 3-5)， 点 击 相 


关 位 点 可 以 显示 该 位 点 的 作 图 和 测序 数据 。 


Homo sapiens genome view bulld27  HLAST semrhjh 


上 


€ — ST a 


图 3-5 Human map viewer 显示 的 人 类 染色 体 资源 ， 点 击 每 条 染色 


体 可 以 得 到 详细 的 信息 。 
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9. Human/mouse homology maps 

此 站 点 列 出 了 人 和 小 鼠 同 源 DNA 片段 的 遗传 位 点 ， 共 收录 
了 6453 个 位 点 。 并 与 GeneMap’99, OMIM fll Jackson Laboratory 
的 the Mouse Genome Database 有 链接 。 

10. LocusLink 

LocusLink 提供 了 一 个 简单 的 界面 ， 可 用 来 查询 人 类 基因 或 
遗传 位 点 的 准确 信息 ， 包 括 基因 的 官方 术语 、 别 名 、 序 列 号 、 表 
型 、EC number, MIM number, UniGene f&, (FA ES. ES 
一 些 相 关 的 Web 站 点 链接 以 提供 完善 的 信息 ,包括 :Human Gene 
Nomenclature Committee (HGNC) (http://www. gene. ucl. ac. 
uk/nomenclature/), the Genome Database (GDB; http:// 
gdbwww. gdb. org/ ), the Human Gene Mutation Database 
(HGMD; http://www. uwem. ac. uk/uwcm/mg/hgmd0. html ), 
GeneCard (http://bioinfo. weizmann. ac. il/cards/ ) 和 
GeneClinics (http://www. genecli nics. org/ ) 。 

11. Malaria genetics & genomic 

， 该 站 点 提供 了 症 原 虫 (Plasmodium falciparum) 的 遗传 学 和 

基因 组 学 的 信息 ， 包 括 基因 组 图 谱 、 连 锁 标记 和 遗传 学 研究 结果 
(http://www. ncbi. nlm. nih. gov/Malaria/). 

12. ORF finder 

ORF Finder 是 查找 DNA 序列 中 开放 读 框 的 软件 ， 详 细 内 容 
在 第 四 章 第 二 节 有 介绍 。 

13. Reference sequence project 

RefSeq 5j GenBank 不 同 , 它 是 另 一 类 型 的 基因 数据 库 。 ER 
收录 有 全 编码 区 的 或 功能 已 有 一 定 研究 的 基因 。RefSeq 的 记录 分 
为 两 种 : 临时 (provisional) 记录 和 已 编辑 (reviewed) 记录 。 它 
首先 发 布 临 时 记录 , 包括 来 源 于 GenBank 的 各 种 注解 , 并 增添 了 
基因 和 和 蛋白 的 名 称 、PubMed 链接 、 摘 要 文本 和 来 自 LocusLink 的 
基因 作 图 和 染色 体 数 据 。 经 过 专家 审定 和 修改 后 生成 已 编辑 记录 ， 
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包括 了 更 多 的 信息 : a. 经 过 整理 后 延长 的 基因 5” M3’ 非 翻 译 区 
序列 。b. 更 多 的 mRNA 和 蛋白 特征 。e, 发 表 的 相关 文章 。d. fh 
述 基因 特征 的 一 段 摘要 。RefSeq 记录 与 OMIM, PubMed, 
GenBank 和 UniGene 都 有 链接 ,RefSeq 记录 用 “NM ……… ”和 
SNPS eres ”表示 。RefSeq 可 通过 基因 或 蛋白 名 称 、 序 列 号 以 
及 序列 同 源 性 来 查询 ，Entrez 和 LocusLink 都 支持 用 文本 来 查询 
RefSeq, BLAST 也 可 用 RefSeq 的 序号 来 作 同 源 比较 ， 但 应 在 序 
SMAA “ref” (http://www. ncbi. nlm. nih. gov/ LocusLink/ 
refseq. html), 

14. Retrovirus resources 

反 转 录 病 毒 基因 型 分 析 工 具 (Retroviral genotyping tools), 
此 工具 的 目的 在 于 揭示 反 转 录 病 毒 遗 传 多 样 性 的 特点 ， 追 溯 其 流 
行 病 学 规律 。NCBI 的 基因 型 分 析 工 具 主要 是 利用 blastn 程序 对 
用 户 提 供 的 反 转录 病毒 序列 和 一 系列 相关 序列 进行 相似 性 比较 并 
划分 亚 型 ， 相当 于 一 个 多 序列 对 齐 的 过 程 。 对 于 HIV 来 说 , 这 个 
工具 就 是 为 开发 疫苗 而 设计 的 。HIV 专用 的 亚 型 分 析 工 具 中 包括 
T HIV 的 M 组 A-J 亚 型 和 O 组 、N 组 的 基因 组 参考 序列 。 另外， 
还 包括 了 SIV、HTLV、STLV 几 种 病毒 的 专用 分 析 工 具 。 还 可 以 
利用 NCBI 提供 的 Cn3D 工具 对 照 MMDB 观察 病毒 分 子 三 维 结 
构 的 变化 ,并 与 多 种 病毒 基因 组 的 图 谱 链 接 , 与 National Institute 
of Allergy and Infectious Disease (http://www. niaid. nih. gov/ 
research/daids. htm), HIV Sequence Database (http: / /hiv-web. 
lanl. gov/), Sanbi HIV Africa (http://ziggy. sanbi. ac. za/ 
hivafrica/), Stanford HIV RT and Protease Gene Database 
(http: //hivdb. stanford. edu/hiv/) 等 相关 数据 库 链接 。 

15. Serial analysis of gene expression 

基因 表达 系列 分 析 (Serial Analysis of Gene Expression， 
SAGE) 是 对 某 一 组 mRNA 中 基因 表达 定量 检测 的 一 种 方法 。 如 
果 在 一 群 mRNA 中 的 每 一 个 mRNA 的 同一 位 置 取 9-10bp 的 一 
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段 序列 ，( 从 统计 学 上 说 这 样 的 序列 可 以 特异 地 代表 着 95% 的 人 
类 基因 )， 每 一 种 9-10bp 的 序列 的 拷贝 数 则 代表 基因 表达 的 拷贝 
数 , 也 就 可 以 说 明基 因 表达 活性 的 高 低 。 Johns Hopkins 大 学 研究 
小 组 利用 了 这 种 方法 ,首先 提取 组 织 RNA, 得 到 cDNA, 同时 用 
生物 素 标记 cDNA 末端 。 随 后 , 用 一 种 限制 性 内 切 酶 切割 cDNA， 
这 样 就 可 以 分 离 到 酶 切 位 点 3" 端的 序列 。 用 另 一 种 酶 再 切割 
cDNA 片段 ， 去 除 带 生物 素 的 3 端 后 用 PCR 扩 增 每 一 个 标签 片 
BL, 将 30-50 个 不 同 的 标签 片段 连 成 一 个 单一 的 DNA 分 子 。 最 后 
克隆 并 测序 这 些 分 子 , 这 样 酶 切 位 点 3’ 端的 序列 出 现 的 拷贝 数 就 
代表 了 基因 表达 活性 的 高 低 。 基 于 以 上 原理 , NCBI 建立 了 SAGE 
数据 库 , 此 数据 库 主 要 依靠 UniGene 灸 来 建立 , 可 以 用 SAGE 标 
签 来 查询 UniGene $, tA] VA UniGene 簇 来 查询 SAGE 文库 
中 代表 这 一 UniGene fÉ ff] SAGE 标签 出 现 几率 (http://www. 
ncbi. nlm. nih. gov/SAGE/). 

16. SKY/CGH database 

该 数据 库 收集 光谱 核 型 (Spectral Karyotyping, SKY) 和 比 
较 基因 组 杂交 (Comparative Genomic Hybidization, CGH) 的 数 
据 。 光 谱 核 型 是 用 不 同 颜色 的 荧光 来 标记 染色 体 ， 以 显示 人 和 人 小 
鼠 的 所 有 染色 体 ， 使 得 染色 体 畸 变更 容易 观察 到 。 比 较 基因 组 杂 
交 是 利用 肿瘤 或 参照 DNA 的 探 针 与 正常 或 肿瘤 的 染色 体 杂 交 ， 
用 来 发 现在 肿瘤 基因 组 中 DNA. 拷贝 数 的 改变 (http://www. 
ncbi. nlm. nih. gov/sky/)。 

17. Trace archive 

Trace archive 用 来 储存 多 种 生物 基因 组 计划 中 所 有 序列 的 
原始 资料 ， 研 究 者 可 以 根据 自己 的 兴趣 按照 提供 的 查询 方法 得 到 
最 原始 的 基因 组 测序 结果 。 

18. UniGene 

EST (expressed seqeunce tag, EST) 称 表达 序列 标签 ,， 是 从 
cDNA 克隆 中 随机 挑选 出 来 进行 一 次 性 测序 的 结果 。 一 般 长 约 
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200-500bp, 通常 作为 基因 的 标志 。 至 2002 年 1 A GenBank 中 收 
集 的 EST 有 10,069,598 个 序列 。 由 于 cDNA 文库 的 复杂 性 和 测 
序 的 随机 性 ， 有 时 多 个 EST 代表 着 同一 基因 或 基因 组 。 通 过 对 
EST 的 分 析 将 其 归 类 而 形成 EST f& CEST cluster), 每 一 个 EST 
BRR — AE WIA, BI UniGene, 而 UniGene 数据 库 收 集 
T KH EST 能 ,并 与 相关 信息 链接 ， 如 : 表达 的 组 织 类 型 、 染 
色 体 作 图 、 表 达 的 蛋白 等 。UniGene S&H Hs. "77 来 表示 。 目 
前 在 人 类 UniGene 数据 库 (http://www. ncbi. nlm. nih. gov/ 
UniGene/) 中 , 用 超过 150 万 的 EST 构建 了 83000 个 EST f&, 4t 
表 了 大 部 分 的 人 类 基因 .EST BAY 3" 非 编码 区 的 序列 还 可 以 转换 
成 序列 标签 位 点 (sequencetagged sites, STS) 的 序列 帮助 基因 组 
作 图 工作 。 如 果 采 用 DNA 芯片 技术 研究 大 量 基 因 的 表达 情况 , 还 
可 利用 大 量 的 EST 能 的 序列 来 设计 芯片 。UniGene 可 通过 基因 名 
称 、 染色体 cDNA XE, 序列 号 和 普通 文本 等 格式 来 查询 , 还 可 
通过 FTP 下 载 。 

19. VecScreen 

VecScreen 是 查找 序列 中 是 否 包含 有 载体 序列 的 软件 ， 可 以 
发 现 序列 中 是 否 有 载体 序列 污染 。 

二 、 欧 洲 生 物 信息 学 研究 所 (European Bioinformatics 
Institute, EBD 

EBI # European Molecular Biology Laboratory (EMBL) 的 
分 部 ， 位 于 英格兰 的 Hinxton。 由 14 个 欧洲 国家 和 以 色 列 支持 
EMBL 和 其 分 部 。EBI 的 主要 目标 是 从 事 研究 并 为 全 球 科 学 界 提 
供 生物 信息 学 资源 。1994 年 9 A, EBL 承担 了 所 有 此 前 由 德国 海 
德 堡 (Heidelberg) 的 EMBL's Data Library 掌管 的 项 目 。 EBI 可 
以 比 作 美国 的 NCBI， 是 欧洲 主要 的 生物 信息 服务 机 构 (图 3-6)。 
其 任务 和 目标 与 NCBI 相同 ， 包 括 : 

“生物 信息 学 技术 跟踪 

* 研究 开发 生物 信息 软件 


me 生物 信息 学 概论 


* 对 订阅 用 户 提供 培训 和 支持 
- 相关 的 生物 信息 服务 


图 3-6 欧洲 生物 信息 学 研究 所 的 结构 图 


pm 
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GENEMARK 
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H PDB 镜 象 H SRSS L| SAPS 
放射 杂交 BIC_SW pee 
Mas -| 蛋白 引擎 
NDB H PPSEARCH 
H œG 
IMGT | 
f ip 
H DALI 
mtBASE 
O BLITZ 
area] || MUTATION 
Archives 
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EBI 员工 包括 计算 机 专家 、 分 子 生物 学 家 、 数 学 家 、 生 化 学 家 、 


医学 研究 人 员 和 结构 生物 学 家 。 雇 员 们 通力 合作 ， 运 用 数学 和 计 
算 机 工具 研究 疾病 的 分 子 基础 。EBI 的 科研 工作 涉及 生物 信息 领 
域 的 许多 方面 。 主 要 的 科研 任务 包括 ; 


* 开发 更 为 强大 的 比较 运算 算法 

* 创立 更 为 详尽 ， 界 面 友 好 的 网 际 信息 系统 

* 设计 更 高 效 的 数据 库 

EBI 提供 的 服务 

+ 数据库 

* 数据 提交 

. 查询 数据 库 及 相似 性 搜索 (如 FASTA # BLITZ) 
+ 在 线 应 用 程序 

| FTP 存档 文件 

* 研究 和 开发 

EBI 的 数据 库 ; 

由 EBI 网 页 服务 器 支持 的 主要 数据 库 和 分 析 工 具 见 表 3-1。 


表 3-1 EBI 支持 的 数据 库 和 分 析 工 具 列表 


数据 库 名 称 说 阴 

核 背 酸 序列 数据 库 

Simple Queries 应 用 SRS (Simple query retrieval) 检索 
€— - 系统 简单 检 

EMBL database EMBL 核酸 数据 库 

EMBL-Align database EMBL-Align 多 序列 排列 数据 库 

Ensembl | i 自动 注解 的 真 核 生 物 基因 组 

DbEST and dbSTS Queries 查询 dbEST 和 dbSTS 的 工具 

EMEST EMBL 的 EST 序列 数据 库 

EuroGenelndexes EST SHEP es i355 RAE DR OIL E 

MitBase 线粒体 DNA 数据 库 

IMGT ImMunoGeneTics 数据 库 


EDGP 欧洲 果 蝇 基因 组 计划 数据 库 


“746 
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BR 
数据 库 名 称 说 明 
Parasites ———— 5 — 寄生 虫 基因 组 数据 库 
Mutations 序列 变异 数据 库 计 划 
Genomes Server 由 EBI 完成 的 基因 组 数据 总 缆 
Genome MOT 基因 组 监测 表 
蛋白 质 序列 数据 库 


SWISS-PROT, TrEMBL, 


InterPro, etc 


SWISS-PROT, TrEMBL 和 InterPro 等 
蛋白 序列 数据 库 


CluSTr 


将 SWISS-PROT 和 TrEMBL 中 的 蛋 
白 自动 分 类 为 相关 的 分 组 


序列 结构 分 类 数据 库 

DSSP 三 级 结构 数据 库 

HSSP 经 同 源 分 析 方法 得 出 二 级 结构 数据 库 
FSSP Perea vests 
DALI 蛋白 质 结构 、 结 构 域 词典 

3Dee 蛋白 质 结构 域 定义 数据 库 

大 分 子 结构 数据 库 

EBI-MSD 


EBI 大 分 子 结构 数据 库 , 包括 PDB 搜索 
工具 


NDB: EBI Mirror 


EBI 的 镜像 站 点 ， 暂 时 未 提供 


序列 作 图 数据 库 

RHdb 放射 杂交 数据 库 

GenomeMaps 98 人 类 基因 组 图 谱 98 

档案 (Archives) 

Software Biocatalog 分 子 生物 学 软件 的 路 径 

FlyBase Archives 果 蝇 基因 组 档案 库 

EBI ftp server EBI 的 数据 库 和 软件 FTP 下 载 服务 器 
BioWurld ee 


下 面 选择 其 中 比较 重要 的 六 个 数据 库 讨论 , 其 他 EBI 的 服务 
和 工具 可 以 通过 其 网 址 http://www. ebi. ac. uk/ 获 得 。 


e eT EE eee: A eo^qngpe- -grdeqeoe-quas-o c M-type AUR QUÀ es ea 


rand i 
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1. EMBL &3F B F5] 3c JE RE 

EMBL 是 一 个 内 容 广 泛 的 核 苷 酸 (DNA MRNA) 序列 的 数 
据 库 。 其 核 苷 酸 序列 来 源 于 很 多 渠道 ， 有 些 源 自 科学 文献 和 专利 
申请 ， 但 大 部 分 则 是 由 研究 者 或 测序 小 组 直接 提交 的 序列 原始 资 
料 。 该 数据 库 与 美国 NCBI 的 GenBank 核 苷 酸 序列 数据 库 和 日 本 
的 DNA 数据 库 (DDBJ) 合 作 , 通 过 软件 程序 每 天 交换 数据 .EMBL 
数据 库 与 这 两 个 数据 库 保持 联系 ， 可 不 断 地 更 新 内 容 ， 从 而 使 
EMBL 能 为 全 球 科技 界 提供 所 有 公共 范围 内 已 知 的 核 苷 酸 序列 
资料 。 另 外 ，EMBL 与 众多 的 基因 组 测序 小 组 合作 ， 可 以 大 规模 
地 获得 核 苷 酸 序列 。 

(1) EMBL 核 苷 酸 序列 文档 的 信息 类 型 : 

+ 序列 

- 序列 的 简单 描述 

* 序列 来 源 〈 序 列 所 属 物种 ) 

* 文献 目录 及 引文 信息 

* 序列 中 编码 区 的 位 置 〈 如 信和 号 序列 、c E B 链 等 ) 

* 序列 中 有 生物 学 意义 的 位 点 (EST 是 单 向 序列 ， 主 要 来 源 
于 随机 克隆 ， 较 少 有 已 知 的 功能 和 生物 学 信息 。 由 测序 小 组 提交 
的 序列 是 经 细致 注释 的 ， 含 有 报告 这 些 条 目的 研究 者 的 深入 研究 
结果 ) 。 

(2) EBI 提供 的 已 完成 基因 组 资源 (截止 到 2002 年 1 A, 
http://www. ebi. ac. uk/genomes/) 

hi RAR: 11 种 

* 细菌 : 63 种 

| 真 核 生 物 : 5 种 

* 细胞 器 : 201 种 

* 噬菌体，90 种 

* 质粒: 246 种 

+ 类 病毒 : 37 种 
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“病毒 : 628 种 

2. SWISS-PROT 蛋白 序列 数据 库 

该 数据 库 由 日 内 瓦 大 学 和 EBI 的 EMBL 数据 库 联合 维护 。 
EMBL 核酸 序列 数据 库 的 编码 DNA 序列 翻译 成 氨基 酸 序列 后 ， 
文档 保存 在 TrEMBL 数据 库 中 。 由 肽 段 测序 计划 中 得 出 的 蛋白 序 
列 直接 提交 到 SWISS-PROT, 并 指定 序列 号 。 TrEMBL 数据 库 包 
含 两 个 部 分 : SP-TrEMBL 和 REM-TrEMBL, SP-TrEMBL 
(SWISS-PROT TrEMBL) 数据 库 中 的 条 目 最 终 应 当 整 和 到 
SWISS-PROT 中 , 且 每 个 序列 都 指定 了 一 个 SWISS- PROT 序列 
号 。 而 一 些 EBI 暂 不 想 放 入 SWISS-PROT 的 条 目 收录 在 REM- 
TrEMBL 数据 库 中 ， 没 有 指定 SWISS-PROT 序列 号 。SWISS- 
PROT 为 非 元 余数 据 库 , 它 在 2001 年 10 月 公布 的 SWISS-PROT 
Release 40. 0 版 本 包含 了 101,602 个 序列 条 目 。 而 2001 年 12 月 
公布 的 TrEMBL Release 19 版 本 包含 了 636,825 个 条 目 。 MES 
EMBL 数据 库 间 的 交互 参考 可 使 用 户 获得 核 苷 酸 序 列 信息 。 它 同 
时 拥有 来 自 PDB 及 PROSITE 数据 库 的 参考 资料 , PDB 参考 资料 
只 能 在 已 知 三 维 结构 的 序列 条 目 中 找到 ，PROSITE 的 参考 资料 
也 只 能 在 包含 PROSITE Motif 的 序列 条 目 中 找到 。 

3. 放射 杂交 数据 库 (Radiation Hybrid Database, RHdb) 

RHdb 是 收录 用 于 构建 放射 杂交 图 谱 的 原始 数据 的 数据 库 ， 
包括 STS 数据 、 分 值 、 实 验 条 件 和 多 方面 的 交叉 参考 数据 。2001 
年 1 月 公布 的 RHdb Releasel9. 0 版 本 包含 约 229 个 实验 条 件 、92 
个 图 谱 的 三 个 物种 〈 包 括 人 、 小 鼠 和 大 鼠 ) 的 133,239 个 放射 杂 
HA (HPA 106,574 个 STSs) 。 

放射 杂交 图 谱 是 根据 放射 杂交 矢量 分 值 (RH score vector) it 
算 后 构建 的 染色 体 图 谱 ， 是 另 一 种 遗传 图 谱 。 由 于 放射 杂交 图 谱 
可 以 包括 非 多 态 性 标记 ,对 于 遗传 图 谱 的 完善 是 不 可 缺少 的 补充 ， 
且 可 以 对 未 澄清 的 多 态 性 STS 簇 排 序 。 简单 地 说 ,两 个 标记 的 矢 
量 分 值 越 相似 ， 它 们 在 染色 体 上 的 位 置 就 越 接近 。 国 际 上 的 合作 
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研究 计划 产生 了 大 量 的 人 、 小 鼠 和 大 鼠 的 杂交 数据 ， 这 样 就 可 以 


构建 准确 的 STS AB. 它 对 于 研究 人 类 多 因素 遗传 疾病 有 重要 价 
值 。 

4. dbEST 和 dbSTS 

这 是 NCBI fj EST 和 STS 数据 库 的 镜像 数据 库 。 该 数据 库 条 
目 主 要 包括 :表达 序列 标签 (expressed sequence tags, ESTs) 一 一 
单 向 测序 的 cDNA 序列 条 目 ， 序 列 标签 位 点 (sequence tagged 
sites, STSs) 以 及 短 基因 组 标记 序列 (short genomic landmark 
sequences)， 均 由 NCBI 加 以 维护 。EBI SRS 界面 可 用 于 搜索 
dbEST 和 dbSTS 数据 库 。 

5. PDB (Brookhaven 镜像 站 点 ): Protein Data Bank 

PDB 数据 库 收 集 所 有 已 知 的 三 维 结构 信息 ， 最 初 由 
Brookhaven 国家 图 书馆 负责 维护 ， 从 1999 年 7 月 起 ， 由 the 
Research Collaboratory for Structural Bioinformatics (RCSB) 接 
管 , 其 网 址 也 相应 地 该 为 http ://www.rcsb. org/pdb/。 由 美国 国 
家 科学 基金 会 (U. S. National Science Foundation), 国家 公共 医 
疗 科学 协会 (National Institute of General Medical Sciences), Ej 
家 医学 图 书馆 (National Library of Medicine) 和 美国 能 源 部 (U. 
S. Department of Energy) 共同 提供 资金 支持 。 

(D PDB 维护 的 结构 类 型 : 

“蛋白 质 

* 蛋白 质 十 核 苷 酸 序列 Gu DNA) 

* 蛋白 质 一 金属 复合 物 

* 蛋白 质 一 抑制 剂 复合 物 

(2) 三 维 结构 的 确定 方法 包括 : 

* 核磁 共振 (NMR) 

X 线 晶 体 衍射 技术 

O 两 种 技术 的 差异 : 

* 磁 共 振 是 在 溶解 状态 下 检测 分 子 的 结构 。 这 项 技术 能 得 出 
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大 量 动力 学 资料 ， 能 观察 到 水 溶液 (溶解 状态 下 的 分 子 
行为 。 使 我 们 能 通过 分 子 的 结构 特性 了 解 其 功能 特性 。 

“X 线 晶体 衍射 技术 研究 分 子 的 三 维 静 态 图 象 。 分 子 结构 决 

定 晶体 形态 ， 因 此 ， 通 过 该 技术 测定 的 分 子 结构 缺乏 动力 
学 资料 。 换 句 话说， 我 们 无 法 知道 在 溶解 状态 、 自 然 状态 
下 分 子 的 行为 。 

既然 溶解 的 分 子 结构 经 核磁 共振 可 以 得 到 更 多 的 信息 ， 为 何 
不 应 用 这 种 方法 研究 所 有 的 分 子 结构 ? 这 是 由 于 经 核磁 共振 检测 
溶解 的 分 子 结构 会 受到 分 子 大 小 的 限制 。 许 多 蛋白 都 超出 了 能 够 
检测 的 范围 。 因 此 ， 必 须 利用 可 观测 较 大 分 子 结构 的 其 他 技术 
Cin X 线 晶体 衍射 技术 ) 。 

(4) PDB 文档 中 信息 类 型 : 

* 运 用 核磁 共振 或 X 线 晶 体 照 相 术 确 定 的 原子 间 关系 

*， 引 用 的 文献 

* 一 级 结构 信息 (如 氨基 酸 序列 》 

* 二 级 结构 信息 《如 a 螺旋 、B 片 层 结构 》 

“晶体 学 结构 因素 和 核磁 共振 实验 数据 

6. IMGT X 4% Æ (The International ImMunoGeneTics 
Database) 

IMGT 数据 库 创 建 于 1989 年 。 当 时 这 项 开发 工作 由 法 国 
Montpellier II 大 学 完成 这 是 一 个 核 苷 酸 数 据 库 ， 其 中 包括 许多 
-属于 免疫 球 蛋白 超 家 族 的 重要 的 免疫 学 相关 基因 。 免 疫 球 蛋 白 超 
家 族 中 的 大 部 分 分 子 涉及 免疫 识别 和 免疫 应 答 。T 细胞 受 体 
(TCRs)、 免 疫 球 蛋白 lg) 和 主要 组 织 相 容 性 复合 物 (MHC) 分 
子 都 是 典型 的 免疫 球 蛋 白 超 家 族 成 员 。 由 于 该 数据 库 具有 高 水 平 ， 
并 且 信 息 分 布 简 单 ， 它 对 医学 研究 有 很 大 帮助 。 其 中 包括 对 自身 
免疫 性 疾病 、AIDS、 白 血 病 、 淋 巴 瘤 和 骨髓 瘤 等 疾病 的 研究 ， 并 
且 对 治疗 方法 、 抗 体 工程 相关 的 生物 技术 、 免 疫 应 答 中 的 基因 多 
样 性 和 基因 进化 等 方面 研究 均 有 重要 的 提示 帮助 。 图 3-7 是 
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IMGT 数据 库 的 结构 图 (http://imgt. cines. fr; 8104/). 
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图 3-7 IMGT 的 分 类 示意 图 
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(1) 可 从 IMGT 检索 的 信息 类 型 : 

+ 核 苷 酸 序列 

* 蛋白 序列 

“序列 排列 方式 

* 等 位 基因 、 多 态 性 和 STS 信息 

+ 基因 图 谱 和 遗传 学 数据 

“结构 数据 

-ARERI H 

+ 与 疾病 的 关系 

(2) 储存 于 IMGT 数据 库 的 分 子 大 都 是 有 免疫 学 意义 的 。 根 

据 分 子 特 性 ，IMGT 数据 库 数 据 分 别 贮存 于 两 个 不 同 的 数据 库 。 

* LIGM-DB 是 贮存 免疫 球 蛋 白 及 T 细胞 受 体 分 子 的 数据 
库 。LIGM-DB 表示 the Laboratoire d'ImmunoGenetique 
Moleculaire, Æ 2001 年 12 A EAHA A MAA EHD 
的 53936 个 免疫 球 蛋白 和 T 细胞 受 体 的 核酸 序列 条 目 , 序 
列 具有 全 面 的 注释 。 

* MHC/HLA-DB 这 是 关于 主要 组 织 相 容 性 复合 物 分 子 的 
数据 库 。 在 人 类 , 这 类 分 子 指 人 类 白细胞 抗原 (HLA)。 至 
2001 年 10 月 该 数据 库 包含 1468 个 人 类 MHC 等 位 基因 序 
列 。 

(3) 服务 对 象 和 可 能 的 用 途 : 

+ 医学 研究 人 员 (如 HIV/AIDS WR, MERAN H RE 
性 疾病 的 研究 人 员 ) 

“治疗 方法 和 免疫 组 织 化 学 研究 〈 如 抗体 的 制备 、 某 些 免疫 
疗法 、 移 植 免疫 中 的 对 抗 剂 等 ) 

“进化 生物 学 家 和 生物 信息 学 家 、 进 化 学 以 及 与 其 相关 的 基 
因 组 多 样 性 研究 。 在 不 同 种 属 中 分 子 间 的 关系 ， 可 能 是 寻 
找 致 病 相关 基因 的 强 有 力 工具 。 

(4) IMGT 数据 库 的 主要 合作 者 : 


~ "pt pe 


第 三 章 数据库 和 搜索 工具 *81* 


* LIGM: 法 国 蒙 彼 利 埃 的 蒙 彼 利 埃 II 大 学 免疫 遗传 分 子 实 
验 室 (Laboratoire d’ImmunoGenetique Moleculaire) 
* CINES (CNUSC): 法 国 蒙 彼 利 埃 的 d'Informatique 
National de l'Enseignement Supérieur 中 心 
* ICRF: 英国 伦敦 的 帝国 癌症 研究 基金 会 (Imperial Cancer 
Research Fund) 
。EBI: 英国 Hinxton 的 欧洲 生物 信息 学 研究 所 (European 
Bioinformatics Institute) 
“TFG: 德国 科恩 的 遗传 学 研究 所 (Institute fur Genetik) 
，BPRC: 位 于 荷兰 RIJSWIJK 的 灵 长 类 生物 医学 研究 中 心 
(Biochemical Primate Research Centre) 
* EUROGENETEC; 位 于 比利时 瑟 兰 (Seraing) 
(5) IMGT 提供 的 服务 和 工具 : 
+ 序列 排列 工具 GN: DNAPLOT) 
* 建 模 工具 
* 作 图 数据 分 析 工 具 
* 查询 序列 分 类 的 工具 
+ 与 其 他 的 相关 生物 数据 库 有 链接 
+ 通过 网 页 界面 直接 提交 数据 
IMGT 有 自己 特有 的 编号 方案 。 免 疫 效应 分 子 的 变异 性 越 来 
越 大 ,分 类 和 分 析 这 些 分 子 需要 一 种 与 众 不 同 的 方法 .IMGT 的 纺 
号 方案 解释 分 子 结构 框架 (FER)、 互 补 决定 区 (CDRs), 如 果 分 子 
有 结构 数据 的 话 ， 描 述 其 高 可 变 区 环 的 特征 。 
(6) 搜索 IMGT 资料 库 特定 序列 时 可 采用 的 关键 词类 型 
* 受 体 类 型 (如: RAK. T 细胞 受 体 、 免 疫 球 蛋 白 ) 
， 受 体 分 类 (如: TcRa、TcRB、IgM、IgG) 
- 侧 链 类 型 (如 : TcRa 链 、TcRB HE, Ig 重 链 、Ig HH. Ige 
链 ) 
， 区 域 类 型 (如: TR 恒定 区 Ig 人 恒定 区 、TcRa HER, [gd 
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恒定 区 ) 

+ 描述 性 关键 词 (如: Fab, Fc, lambda5, transgene 等 ) 

三 、 日 本 生物 信息 学 服务 器 (GenomeNet-Japanese 
Bioinformatics Servers ) 

GenomeNet 是 一 家 日 本 的 数据 库 和 计算 机 服务 网 络 , 专 为 分 
子 和 细胞 生物 学 中 基因 组 及 其 相关 的 研究 领域 服务 。1991 年 9 
月 ， 在 日 本 文部 省 的 人 类 基因 组 计划 开始 实施 时 成 立 。 
GenomeNet 机 构 目 前 由 京都 大 学 化 学 研究 所 生物 信息 党 中心 
(Bioinformatics Center, Institute for Chemical Research, Kyoto 
University) 掌管 。 可 通过 GenomeNet 服务 器 http://www. 
genome. ad. jp/ 访 问 ， 并 提供 以 下 服务 : 

(1) DBGET/LinkDB 整 和 数据 库 检索 系统 〈 见 图 3-8) 


| DBGET Database Links 
oO ue 
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图 3-8 DBGET 数据 库 链接 图 该 图 可 以 很 方便 地 与 其 他 数据 库 
相 链 接 ， 图 中 的 连 线 说 明了 数据 库 相 互 之 间 的 关系 
(http://www. genome. ad. jp/dbget /dbget. links. html), 


* DBGET/LinkDB/KEGG 数据 库 链 接 图 表 
* DBGET/BLAST/FASTA ff IDEAS 界面 
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(2) KEGG (Kyoto Encyclopedia of Genes and Genomes); 3 
都 基因 和 基因 组 百科 全 书 

+ KEGG 内 容 表 

“PATHWAY: 代谢 途径 和 复合 物 

* GENES; 基因 的 注解 

* SSDB: 计算 机 分 析 的 序列 同 源 性 

* LIGAND: 化 学 复合 物 和 反应 数据 库 

* EXPRESSION; 微 阵列 基因 表达 谱 

‘BRITE: 蛋白 和 蛋白 之 间 相 互 作 用 和 关系 

* BLAST/VFASTA: 查找 GENES # GENOME 数据 库 的 工 

具 

(3) 序列 解 译 工具 

* BLAST: 序列 相似 性 查找 

* FASTA: 序列 相似 性 查找 

* MOTIF; 序列 中 基 序 的 查找 

“CLUSTALW: 多 序列 排列 

(4) GenomeNet 的 匿名 FTP 服务器， 提供 下 载 KEGG 系统 
的 路 径 。 

下 面 就 4 个 方面 作 一 介绍 : 

1. GenomeNet 网 站 的 链接 

日 本 数据 库 系 统 不 仅 为 美国 、 欧 洲 及 日 本 的 DNA 和 和 蛋白质 
数据 库 提供 链接 ， 而且 确 保 这 些 数 据 库 信息 内 容 的 质量 。 
GenomeNet 开发 的 目的 是 解释 序列 信息 以 及 为 多 种 多 样 的 生物 
学 问题 提供 一 系列 最 有 用 的 分 析 工 具 ， 图 3-9 是 其 提供 的 工具 。 

GenomeNet 的 工具 包括 : 

* BLAST fll FASTA: 均 为 序列 相似 性 搜索 程序 。 

* MOTIF: 由 京都 大 学 开发 的 序列 特征 搜索 程序 , 搜索 序列 

的 特征 不 是 线形 排列 ,而 与 编码 蛋白 的 结构 特性 直接 相关 。 
+ CLUSTALW :类 似 于 BLAST 和 FASTA 的 多 序列 排列 程 
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图 3-9 GenomeNet 提供 的 序列 解释 工具 
(http://www. genome. ad. jp/SIT /) 
序 ， 仅 限于 成 对 比较 ， 并 提供 其 他 一 些 工具 搜索 与 蛋白 结 
构 相 关 的 序列 功能 信息 。 

* TFSEARCH: 识别 转录 因子 结合 位 点 。 转录 因 子 是 通过 直 
接 结合 到 基因 附近 的 DNA 而 控制 基因 活动 的 一 组 蛋白 。 

* GRAIL (Gene Recognition and Assembly Internet Link): 
基因 识别 和 装配 互联 网 链接 程序 ， 用 于 识别 在 未 知 生物 学 
意义 的 新 近 完成 测序 的 DNA 序列 中 的 新 基因 。 

因为 基因 含有 一 些 结构 用 于 调控 蛋白 的 表达 ， 所 以 某 些 短 序 

列 DNA (10-50 个 碱 基 对 ) 的 特殊 结构 和 基 序 是 功能 基因 的 标志 。 
而 且 ， 真 核 基因 通常 分 成 功能 区 和 非 功 能 区 〈 编 码 和 非 编码 区 )， 
称 为 外 显 子 和 内 含 子 。 只 有 外 显 子 DNA 序列 能 翻译 成 蛋白 序列 ， 
因此 ， 才 有 相应 的 蛋白 序列 和 功能 的 解释 或 预测 。 尽 管 大 部 分 数 
据 库 信息 与 序列 有 关 ， 但 蛋白 结构 信息 也 渐渐 增多 。 从 进化 的 角 
度 来 说 , 这 很 重要 , 因为 蛋白 结构 较 相应 氨基 酸 和 DNA 序列 更 保 
守 。 为 预测 这 些 功能 ， 可 应 用 : 

+ PSORT 程序 (prediction of protein sorting signals): 蛋白 
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分 类 信号 预测 

* SOSUI 程序 (prediction of transmembrane segments); 跨 
膜 片段 预测 

“PDB highlight: 是 蛋白 亚 结构 的 简易 观看 程序 ， 它 可 以 模 
拟 Protein Data Bank 的 蛋白 信息 用 于 比较 已 知 蛋白 结构 
的 相似 性 。 

“KEGG 是 有 关 生 物 代谢 功能 的 一 个 工具 。 这 是 京都 大 学 开 
发 的 关于 代谢 途径 的 搜索 和 重新 构建 的 工具 ， 下 面 将 详细 
解释 。 

2. 京都 基因 和 基因 组 百科 全 书 一 KEGG (Kyoto Encyclopedia 
of Genes and Genomes) 

不 同 生物 的 基因 组 测序 进展 顺利 ， 小 鼠 基 因 组 已 有 部 分 测序 
工作 已 完成 ， 人 类 基因 组 目前 已 完成 绝 大 部 分 的 测序 ， 计 划 将 于 
2003 年 全 部 完成 。 在 这 些 基因 组 计划 中 产生 了 大 量 的 基因 和 基因 
序列 的 信息 ， 下 一 步 的 工作 就 是 诠释 这 些 基 因 的 功能 。 也 就 是 利 
用 实验 和 计算 机 的 方法 解码 基因 在 生命 体 中 实现 功能 的 时 间 、 地 
点 和 方式 。KEGG 是 1995 年 5 月 在 日 本 人 类 基因 组 计划 的 前 提 
下 启动 的 , KEGG 最 初 的 目的 是 利用 计算 机 的 方法 来 分 析 目 前 已 
知 的 分 子 间 相 互 关系 的 信息 ， 包 括 代谢 途径 、 调 节 途 径 和 分 子 装 
配 等 方面 的 信息 。KEGG 列 出 了 所 有 生物 中 与 代谢 途径 中 的 组 分 
相关 联 的 基因 的 目录 。KEGG 包含 很 多 已 完成 基因 组 测序 的 微 生 
物 的 代谢 途径 信息 ， 以 及 一 些 仍 未 完成 基因 组 测序 的 生物 体 〈 如 
人 和 和 小 鼠 ) 的 代谢 途径 信息 。 

KEGG 是 GenomeNet 数据 库 系统 的 一 部 分 ， 与 其 他 公共 数 
据 库 通过 LIGAND 和 BRITE 搜索 引擎 相 链接 。 

LIGAND 是 一 个 化 学 数据 库 ， 用 于 搜索 酶 和 代谢 复合 物 。 它 
由 京都 大 学 化 学 研究 所 维护 ， 目 前 包含 13407 个 条 目 : 3829 个 相 
关 酶 ( 酶 反应 数据 库 ), 9578 个 相关 代谢 复合 物 ( 化 学 复合 物 数据 
FE) BRITE 为 一 生物 分 子 相关 信息 传送 和 发 布 的 数据 库 , 也 位 于 
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京都 大 学 化 学 研究 所 ， 售 278 个 条 目 。 


为 了 能 直接 搜索 所 关心 的 复合 物 、 酶 或 基因 ，KEGG 主页 上 


i) "Search and compute with KEGG” 链接 将 我 们 带 入 代谢 图 谱 


搜索 工具 、 基 因 组 图 谱 、 着 色 了 


[ 具 、 预 测 工 具 和 序列 相似 性 比较 


[ 具 的 界面 。 


只 有 知道 需要 查找 的 确切 内 容 是 什么 时 ,这 些 链接 才 有 用 。 因 


为 这 种 搜索 模式 需要 精确 的 条 目 号 码 , 如 酶 术语 E.C. 2.7.1.1 代 
表 己 糖 激酶 ; 化 学 复合 物 号 码 ， 如 C00417 代表 顺 式 乌 头 酸 盐 。 


对 于 更 为 普通 的 关键 词 搜索 ， 或 者 只 知道 部 分 或 完全 酶 、 复 


合 物 或 路 径 名 称 的 话 , 则 LIGAND 搜索 模式 或 代谢 途径 图 谱 和 分 
子 目 录 链 接 更 为 适合 。 后 者 在 “pathway” 和 “enzyme” 选 项 中 提 
供 许多 搜索 类 别 。 


3. KEGG 代谢 数据 库 的 应 用 
(1) 标准 代谢 路 径 的 寻找 ， 
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a FE * - 


am 


图 3-10 赖 氨 酸 生物 合成 标准 代谢 途径 。 图 中 显示 了 代谢 途径 中 
所 有 的 酶 ， 并 且 绘 制 了 当前 正在 进行 基因 组 计划 的 多 种 
生物 赖 氨 酸 生物 合成 代谢 途径 (http://www. genome. 
ad. jp/kegg/pathway/map/map00300. html) 。 
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A KEGG 内 容 表 中 点 击 路 径 分 类 下 的 “代谢 路 径 ” 查看 所 有 
路 径 清单 。 为 寻找 “ 赖 氮 酸 生物 合成 ”路 径 链接 ， 翻 到 路 径 名 为 
“氨基 酸 代谢 ”一 列 , 点 击 链接 。 并 要 查看 赖 氨 酸 生物 合成 的 标准 
路 径 MAP00300 ( 见 图 3-10). 

(2) 寻找 种 属 特 异性 路 径 图 : 

在 标准 路 径 图 上 ,在 “Go to” 窗 口中 选择 种 属 名 (如 Mus 
musculus) 并 点 击 执行 。 BBA. 现在 应 该 看 到 这 些 路 径 , 并 在 窗口 
中 会 显示 种 属 名 (如 Mus musculus )。 数 据 库 现存 的 所 有 小 鼠 的 酶 
都 被 标记 为 绿色 , TE E.C. 2. 3. 1. 酶 组 中 有 举例 .人 类 相应 图 谱 不 

显示 单一 的 标记 酶 .对 人 和 小 鼠 而 言 , L- 赖 氨 酸 是 必需 氨基 酸 。 因 
为 我 们 体内 缺乏 生物 合成 L- 赖 氨 酸 的 必需 酶 〈 见 图 3-11)。 


(CRS ee 
Tho my my y map my 


zm 2 0240m au Jae ein — 
LIUM 


Lysine bioeynthes 


In 
e 


图 3-11 人 类 (Homo sapiens) 的 赖 氨 酸 生物 合成 代谢 途径 , 网 页 
中 有 色彩 的 酶 的 编号 表明 存在 这 条 途径 ,而 没有 色彩 的 
酶 编号 表示 不 存在 该 条 途径 或 还 没有 被 描述 ， 闽 氮 酸 是 
人 体 必 有 需 氨基 酸 , 人 类 缺乏 合成 赖 氨 酸 的 能 力 , 所 以 在 此 
图 中 几乎 没有 彩色 的 酶 。 
比较 E. coli 相应 图 谱 , 你 会 发 现 这 种 革 兰 氏 阴 性 菌 能 通过 一 
系列 的 酶 反应 利用 天 门 冬 氨 酸 盐 合 成 出 L- 赖 氮 酸 。 


O 从 代谢 路 径 图 中 找到 化 学 结构 或 代谢 信息 : 
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注意 : L- 赖 氨 酸 前 体 也 可 作为 肽 聚 糖 合成 的 底 物 ， 形 成 激活 
的 前 体 分 子 。 点 击 复合 物 下 的 小 圆圈 可 以 查看 这 种 分 子 结构 。 还 
可 于 KEGG 的 C05826 条 目下 查看 信息 页 。 

以 上 述 及 的 问题 给 怎样 寻找 代谢 信息 提供 了 一 个 例子 ， 即 通 
过 化 学 结构 、 分 子 式 、KEGG 条 目 号 、 以 及 路 径 图 查询 ERE 
图 页 面 上 点 击 底 物 名 (或 圆 图 符号 ) 是 寻找 底 物 相关 化 学 信息 和 
其 公用 路 径 最 简易 的 方法 。 同 样 , 点 击 EC. 号 码 框 就 可 寻找 酶 ， 
点 击 光滑 边框 符 寻 找 交叉 路 径 。 例 如 ， 赖 氨 酸 生物 合成 图 有 通 往 
“ 赖 氮 酸 降解 ”路 径 的 链接 。 点 击 “ 赖 氮 酸 降解 ” 框 符 便 可 得 到 相 
应 的 代谢 过 程 。 选 择 E. coli 路 径 ， 新 路 径 图 号 码 是 MAP00310。 

(D 通过 关键 词 搜索 化 学 结构 或 代谢 物 信息 : 

为 寻找 代谢 物 或 酶 路 径 ， 内 容 列 表 提 供 了 到 达 KEGG 的 
DBGET Ligand 数据 库 的 直接 链接 。 这 种 搜索 模式 可 在 DBGET 
搜索 的 “ 酶 ”目录 下 的 “内 容 列 表 ” 上 找到 。 A “MH 
(Ligand)” 链 接 上 普通 搜索 模式 ， 此 时 关键 词 就 可 应 用 。 注 意 ， 
DBGET 数据 库 无 须 准 确 的 酶 或 复合 物 号 码 。 寻 找 赖 氨 酸 或 L- 赖 
SRR. RA “MAM” MEERA. HAD 96 个 采样 数 的 
反馈 清单 ， 即 反馈 所 有 酶 或 复合 物 中 包含 “ 赖 氨 酸 ”的 KEGG 条 
H. 清单 中 将 有 45 个 酶 (ec: x.x.x.xx) ALSIP RAW (cpd: 
Cxxxxx)， 其 中 一 个 是 “L- 赖 氨 酸 ”(cpd: C00047) 以 及 其 他 所 有 
的 衍生 物 。 

点 击 cpd 号 码 , 进入 化 学 结构 信息 表 。 该 表 列 出 L- 赖 氨 酸 复 
合 物 查询 号 码 (注意 : AMT DD- 赖 氮 酸 )、 公 用 名 、 AFR. 结构 、 
L- 赖 氨 酸 作为 代谢 物 〈 包 含 L- 赖 氨 酸 合成 和 降解 的 5 个 图 、 生 物 
素 代 谢 、 生 物 碱 生物 合成 及 氨 酰 基 -RNA 生物 合成 ) 的 所 有 路 径 
， 以 及 用 工 - 赖 氨 酸 作为 底 物 的 所 有 已 知 酶 。 

4。 生 物 分 子 的 一 般 信 息 资料 

另 一 个 有 用 的 编排 是 分 子 目录 条 目 ， 可 更 确切 地 说 是 “复合 
物 (compound) 分 类 ”。 这 产生 了 代谢 物 根据 其 功能 不 同 而 分 类 的 
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目录 。 例 如 ， 碳 水 化 合 物 、 脂 肪 酸 、 磷 脂 和 神经 递 质 等 。 如 想 查 
找 某 一 类 分 子 的 结构 ， 诸 如 氨基 酸 或 各 种 已 糖 ， 这 个 链接 将 给 出 
最 完善 详尽 的 结果 ， 可 以 用 做 查找 结构 信息 的 参照 。 例 如 ， 如 果 
你 对 类 固 醇 激素 结构 感 兴趣 ， 目 录 “ 脂 类 ”将 链接 到 含有 ?7 个 胆 
固 醇 来 源 的 类 固 醇 激素 名 称 及 化 学 结构 的 页 面 。 

点 击 “醛固酮 ”链接 ， 链 接 到 结构 信息 页 ， 该 页 提供 C21 类 
固 醇 激素 代谢 (MAP00140) 路 径 图 链接 。 点击 路 径 图 链接 ,进入 
类 因 醇 激素 代谢 的 标准 路 径 ， 醛 固 酮 位 置 标记 为 红色 圆圈 ， 因 为 
我 们 是 从 醛固酮 开始 研究 的 。 选 择 Homo sapiens， 会 显示 出 多 个 
路 径 , 而 相应 的 细菌 图 E. coli 显示 出 这 种 微生物 缺乏 合成 类 固 醇 
激素 的 能 力 。 

了 解 诸如 KEGG 数据 库 的 局 限 性 很 重要 。 有 时 你 想 查看 的 酶 
没有 被 标记 (如 上 述 的 醛固酮 路 径 中 )。 该 路 径 图 显示 所 有 已 知 的 
总 结 在 标准 路 径 图 中 的 反应 。 种 属 特异 性 酶 被 标记 成 绿色 。 酶 
EC1. 14. 15. 5 是 皮质 酮 18- 单 加 氧 酶 ， 功 能 是 将 皮质 酮 转化 为 醋 
固 酮 。 从 该 酶 的 下 . C. 链接 进入 GenBank 显示 出 一 个 小 鼠 的 核 背 
酸 序列 , 小 鼠 的 CYP11B2 基因 第 9 外 显 子 负责 醛固酮 合成 。 人 类 
单 加 氧 酶 的 同 源 基因 同样 存在 ,但 还 未 见 到 报道 。 

以 上 描述 的 工具 和 数据 库 可 以 通过 Japanese Bioinformatics 
Servers (日 本 生物 信息 学 服务 器 ) 的 http://www. genome. ad. jp 
上 获得 。 
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一 、 序 列 相似 性 搜索 工具 

序列 相似 性 搜索 工具 (sequence similarity search tools) 是 指 
查找 序列 之 间 的 同 源 序列 的 工具 ， 用 来 明确 序列 之 间 相 似 性 的 大 
小 。 本 节 主 要 讲述 BLAST H FASTA, 这 是 互联 网 上 最 流行 、 界 
面 友好 的 两 大 序列 相似 性 搜索 工具 。BLAST 服务 器 由 美国 的 
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NCBI 支 持 ， 而 FASTA 则 由 英国 的 EBI 负责 维护 。BLAST 在 
EBI 的 镜像 站 上 提供 了 用 户 应 用 BLAST 或 FASTA 的 选择 权 ， 
并 且 提 供 一 些 其 他 有 用 的 搜索 程序 . 但 NCBI 用 户 仅 限 于 使 用 
BLAST 服务 器 。 非常 有 效 , 适合 多 种 搜索 任务 。 本 章 将 进一步 讨 


论 这 一 ( 见 图 3-12)。 其 他 序列 相似 性 搜索 工具 上 的 附加 信息 可 从 
EBI 和 NCBI 网 站 上 获得 。 


输入 查询 
ues oss EN 
氨基 酸 序列 | DNA 序 列 | 
LLL 
一 一 一 一 一 一 - 
| 
BLASTp tblastn blastn | blastx tblastx 
n St a 


Æ 3-12 BLAST 程序 一 览 图 


序列 相似 性 搜索 是 通过 序列 排列 的 方法 实现 的 。 大 体 了 解 序 
Ji] HEF (sequence alignment) 对 理解 BLAST 或 者 其 他 序列 相似 
性 搜索 工具 是 必须 的 。 下 面 简要 介绍 一 下 这 种 大 多 数 序列 相似 性 
搜索 工具 的 基础 一 一 序列 排列 。 

1. 序列 排列 : 

多 数 情况 下 ， 序 列 排列 用 于 发 现 潜在 的 同 源 性 ， 继 而 预测 寻 
找 序列 的 潜在 功能 或 帮助 模拟 其 三 维 结构 。 序 列 排列 工具 分 为 整 
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体 或 局 部 排列 工具 (global or local alignment tools) 两 类 。 

(1) 整体 排列 工具 (global alignment tools) : 

整体 排列 工具 是 对 特定 序列 全 长 最 好 的 总 体 排列 。 两 条 序列 
间 引 入 间隙 (gap) 人 允许 全 长 序列 的 总 体 排列 。 应 用 整体 排列 工具 
的 主要 优点 是 可 使 具有 高 度 相 似 性 的 序列 得 到 最 优化 的 处 理 。 依 
据 与 已 知 三 维 结构 的 序列 同 源 性 进行 结构 模拟 预测 时 ， 该 工具 是 
非常 有 用 的 。 

(2) 局 部 排列 工具 (local alignment tools); 

局 部 排列 工具 是 在 特定 序列 的 亚 区 或 局 部 区 域 寻找 优化 排 
列 。 应 用 局 部 排列 工具 的 优点 是 它 对 局 部 呈现 相似 性 区 域 的 序列 
最 为 适合 。 局 部 排列 搜索 工具 用 于 寻找 序列 基 序 、 结 构 域 和 同一 
序列 内 的 其 他 类 型 的 重复 序列 。 在 给 定 的 数据 库 内 ， 寻 找 相似 的 
序列 也 很 有 用 。 总 之 ， 局 部 排列 工具 特别 适合 识别 高 度 相似 的 较 
短 区 域 记 分 的 片段 。 通 常 这 些 区 域内 片段 可 以 用 于 发 现 全 长 序列 
的 相似 性 。 

2， 两 种 序列 排列 工具 的 记分 方案 : 

包括 BLAST 和 FASTA 两 种 序列 排列 工具 在 内 ， 所 有 序列 
比较 算法 都 依赖 于 某 一 种 记分 方案 。 大 多 数 采用 记分 矩阵 给 每 一 
个 排列 记分 。 排 列 分 值 是 赋予 每 一 个 配对 的 氨基 酸 或 核 苷 酸 对 的 
较 小 分 值 的 总 和 。 区 分 记分 矩阵 的 标准 依赖 于 它 所 依靠 的 记分 类 
型 。 大 多 数 矩 阵 依赖 以 下 记分 方案 中 的 一 种 。 

CD 依据 “同一 性 ”的 记分 方案 : 

在 这 个 记分 方案 中 ， 配 对 的 相同 残 基 或 核 苷 酸 记 为 正 分 ， 而 
不 相同 配对 记 零 分 , 一般 地 , 赋予 相同 配对 的 正 分 为 1。 总体 同一 
性 分 值 转换 成 同一 性 百分比 。 

其 优点 是 具有 简单 和 非 启发 性 ， 对 于 有 高 度 序列 相似 性 的 序 
列 很 好 用 。 

但 缺点 是 这 种 记分 方案 总 体 上 不 如 考虑 了 外 部 知识 的 记分 方 
案 。 这 主要 由 于 非 同 一 性 配对 也 有 不 相同 之 处 。 例 如 ， 从 生物 角 
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度 看 ， 丙 氨 酸 / 屿 氨 酸 配对 较 丙 氨 酸 /天 冬 氨 酸 盐 对 更 能 接受 。 在 
这 个 例子 中 ,不 同 之 处 是 所 涉及 残 基 的 相对 疏水 的 性 质 。 因 此 ， 
“同一 性 ”的 记分 方案 在 监测 低 序 列 相 似 性 的 序列 或 序列 区 域 时 不 
很 有 效 。 因 而 ， 一 种 考虑 了 额外 步 又 的 非 同 一 性 配对 记分 方案 较 
单纯 同一 性 记分 更 具 生物 学 意义 。 还 有 ， 从 排列 所 得 的 同一 性 百 
分 比 报告 不 总 是 与 所 呈现 的 同 源 程 度 相 一 致 。 这 主要 因为 长 度 影 
响 同 一 性 百 分 值 。 

(2) 依据 “化 学 相似 性 ”的 记分 方案 : 

这 是 为 了 克服 “同一 性 ”记分 方案 缺点 的 一 种 基本 尝试 。 这 
种 方法 考虑 了 残 基 对 的 化 学 结构 特性 。McLachlan 和 Feng 的 记 
分 方案 都 考虑 了 氨基 酸 的 特性 ， 如 极 性 、 电 荷 以 及 结构 特征 等 。 

其 优点 是 在 某 种 程度 上 ， 它 与 氨基 酸 水 平 的 蛋白 结构 的 真正 
选择 性 压力 一 致 。 事 实 上 ， 有 些 氨基 酸 的 突变 与 其 它 各 种 突变 相 
比 ， 对 于 蛋白 功能 具有 较 大 的 破坏 性 。 一 般 来 说 ， 这 些 突变 都 会 
引起 相应 氨基 酸 特性 的 剧烈 改变 , 极 性 残 基 转变 为 非 极 性 残 基 , 或 
相反 的 情况 ， 对 于 改变 蛋白 的 结构 和 功能 较 具 有 相似 特性 的 残 基 
突变 更 为 有 效 。 

其 缺点 是 在 自然 状态 下 观察 的 突变 不 是 总 能 从 简单 的 记分 方 
案 中 得 到 解释 ,虽然 这 种 记分 方案 体现 了 对 自然 现象 的 基本 理解 。 
自然 界 中 某 些 进化 突变 仍 需 进一步 研究 。 

(3) 依据 “遗传 编码 ”的 记分 方案 : 

这 种 方法 考虑 了 在 基因 组 水 平 上 导致 由 一 个 氨基 酸 转换 为 另 
一 个 氨基 酸 的 碱 基 变 化 的 最 小 值 。 其 优点 是 基于 分 子 生物 学 的 原 
理 。 缺 点 是 偶然 性 因素 可 能 会 影响 该 方案 的 可 靠 性 。 改 变 了 的 残 
基 仍 可 能 在 较 大 程度 上 保持 相似 性 ， 而 较 低 的 碱 基 改 变 率 并 不 总 
是 与 此 一 致 。 

(4) 依据 “观察 突变 ”的 记分 方案 : 

该 方法 以 在 排列 序列 中 观察 到 的 突变 频率 为 依据 。 优 点 是 以 
自然 状态 下 真实 发 生 的 情况 为 基础 ， 可 以 最 大 程度 地 减少 某 种 脐 
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断 . 缺 点 是 该 记分 矩阵 基于 在 一 套 排列 序列 中 发 现 的 突变 频率 ,由 
于 最 初 排列 时 需要 人 为 地 干预 ， 有 可 能 会 改变 观察 的 真正 突变 频 
度 。 通 过 肉眼 的 序列 排列 亦 可 能 会 产生 配对 错误 ， 并 最 终 导致 非 
自然 突变 频率 的 发 生 。 一 般 地 说 ， 依 据 “观察 突变 ”的 记分 方案 
与 以 上 几 种 方案 比较 ， 它 较 好 地 体现 了 自然 变化 的 过 程 。 
3. 序列 排列 的 用 途 : 
* 进化 : 序列 间 的 同 源 性 很 高 往往 暗示 着 相互 之 间 有 较 近 的 
进化 关系 。 
* 结构 预测 : 未 知 结构 的 蛋白 序列 与 蛋白 结构 已 知 的 序列 排 
列 可 以 预测 那些 未 知 的 三 维 结构 ， 但 预测 的 结构 仍 需 实验 
鉴定 。 这 是 基于 这 样 的 假设 : 即 在 相关 的 蛋白 中 ， 序 列 同 
源 性 和 结构 相似 性 有 直接 关系 。 
+ 序列 基 序 (motif) 鉴定 : 局 部 序列 排列 可 以 鉴定 出 蛋白 和 
核 背 酸 的 潜在 序列 基 序 和 功能 特征 。 
* 功能 预测 : 蛋白 间 的 高 度 序 列 相似 性 通常 暗示 所 分 析 的 同 
源 序列 功能 可 能 相同 。 
4. 大 多 数 蛋 白 序 列 算法 的 基本 概念 : 
这 些 算 法 基于 210 个 可 能 的 氨基 酸 配对 ,由 20X20 WAP 
阵 加 以 描述 。210 是 20 个 配对 的 和 190 个 不 配对 的 氨基 酸 对 的 总 
和 。 在 给 定 的 字符 表 中 ， 字 符 总 的 可 能 对 数 由 公式 (n-1) i 表示 
Cn 代表 氨基 酸 字符 的 数目 )。 因 此 ， 有 20 个 氨基 酸 符号 的 蛋白 质 
用 (20-1) i RR, 与 210 个 可 能 的 氨基 酸 对 相对 应 。 正 如 前 面 所 
讨论 的 , 在 记分 矩阵 中 , 相同 的 氨基 酸 对 (如 亮 氨 酸 和 亮 氮 酸 ) 被 
赋予 最 高 分 ， 接 下 来 是 某 种 程度 相似 的 氨基 酸 对 (如 亮 氮 酸 和 异 
亮 氮 酸 )， 最 后 才 是 不 相似 的 氨基 酸 对 (如 亮 氮 酸 和 精 氨 酸 ) 。 
5. NCBI 的 同 源 搜索 基本 工具 -BLAST (Basic Local 
Alignment Search Tool) 
BLAST 可 以 搜索 所 有 可 获得 的 主要 序列 数据 库 ( 如 SWISS- 
PROT, PDB 等 )。 标 准 BLAST 的 默认 运行 数据 库 是 nr (non- 
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redundant) 数据 库 , nr 数据 库 由 NCBI 维护 。 因 其 缺乏 同一 种 属 
的 宛 余 序列 ,故而 加 速 了 BLAST 对 输入 文件 的 分 析 。 虽 然 nr 数 
据 库 是 BLAST 运行 的 默认 数据 库 ， 用 户 仍 可 选择 其 想 要 查询 的 
其 他 数据 库 。 例 如 ， 如 果 用 户 想 用 结构 已 知 的 同 源 蛋 白 用 来 模拟 
结构 尚 需 确定 的 蛋白 序列 的 话 , PDB (Protein Data Bank) 数据 库 
将 是 最 合理 的 选择 之 一 。 

(D BLAST 中 的 记分 矩阵 

BLAST 的 统计 理论 由 Samuel Karlin 和 Steven Altschul 创 
立 。 所 有 的 BLAST 程序 应 用 替代 记分 矩阵 (substitution scoring 
matrix) 。 排 列 过 程 中 的 扫描 相 和 扩展 相 都 应 用 替代 矩阵。 该 矩阵 
用 于 给 配对 记分 。 已 知 替代 和 矩阵 能 很 大 程度 地 加 强 排列 过 程 的 敏 
感性 。 这 对 于 BLAST 试图 发 现 序列 的 相似 性 部 分 或 片段 是 至 关 
重要 的 。 替 代 矩 阵 是 一 种 记分 方法 ， 用 于 一 个 氨基 酸 残 基 或 核 苷 
酸 与 另 一 个 残 基 或 核 苷 酸 的 排列 。 蔡 代称 阵 的 首次 应 用 是 用 进化 
的 角度 比较 蛋白 的 序列 ,由 已 故 的 Margaret Dayhoff 和 她 的 同事 
共同 开发 。 这 些 矩 阵 来 源 于 近似 序列 的 整体 排列 ， 同 时 也 用 于 外 
推 相 似 性 较 弱 的 或 进化 距离 较 远 序 列 的 其 他 和 矩阵。 这 些 矩 阵 专 指 
Dayhoff, MDM 和 PAM 系列 和 矩阵。 这 些 矩 阵 的 相关 数字 (如 
PAM40,PAM100 等 ) 是 与 各 个 序列 间 的 相应 进化 距离 相 一 致 的 。 
较 小 的 数字 表示 进化 距离 较 小 的 序列 ， 而 较 大 的 数字 代表 较 远 的 
进化 距离 。PAM 系列 矩阵 的 主要 缺陷 是 其 基于 不 正确 的 假设 上 : 
即 相关 序列 间 的 选择 压力 与 不 大 相关 序列 间 的 选择 压力 是 一 样 
的 。 由 Steve Henikoff 及 其 同事 开发 的 BLOSUM Si, 与 依赖 相 
关 序 列 的 整体 排列 的 PAM 系列 矩阵 不 同 ， 它 来 源 于 相关 序列 的 
局 部 排列 。BLOSUM 矩阵 不 依靠 原先 计算 的 不 太 相关 的 序列 矩 
阵 来 外 推 较 为 相关 的 序列 。 这 种 方法 的 所 有 和 矩阵 都 直接 由 计算 得 
H. 5 PAM 系列 矩阵 相 比 ， 伴 随 BLOSUM 和 矩阵 的 数字 (如 
BLOSUM62) 指 的 是 用 于 构建 矩阵 的 最 小 同一 性 百分比 。 因 此 , 较 
小 的 数字 与 代表 进化 距离 较 大 的 间隔 相 一 致 。 
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(2) 可 以 使 用 的 矩阵 

PAM 系列 一 般 适 合 整 体 相似 性 的 搜索 , 而 BLOSUM 系列 则 
能 较 好 地 寻找 区 域 或 局 部 的 相似 性 序列 .两 个 系列 都 有 其 优 缺 点 ， 
现行 的 办 法 是 合并 使 用 两 种 方法 ， 使 其 优势 互补 。 这 样 一 个 结合 
的 矩阵 能 够 在 相似 性 搜索 工作 中 提高 操作 的 水 平 。 

BLAST 程序 的 设计 是 为 加 快速 度 ， 同 时 最 大 限度 地 增加 对 
序列 距离 关系 的 敏感 性 。 这 就 使 得 该 程序 以 时 间 高 效 性 的 方式 寻 
找 同 源 性 最 近 的 序列 。BLAST 程序 应 用 启发 式 算法 确定 局 部 排 
列 。 与 寻找 整体 排列 的 算法 相 比 , BLAST 的 局 部 排列 搜索 是 寻找 
序列 相似 性 的 孤立 区 域 的 .BLAST 服务 器 支持 多 种 分 析 程 序 , 既 
可 通过 网 页 界面 获得 , 也 可 安装 在 局 域 网 上 , 以 加 快 分 析 的 步骤 。 
Standard BLAST 是 最 初 的 BLAST 程序 , 仅 能 在 NCBI 数据 库 网 
络 中 搜索 相似 性 序列 。 

(3) BLAST 基本 搜索 (basic BLAST search) 的 局 限 性 

基本 BLAST 程序 在 其 排列 中 不 允许 有 缺口 的 出 现 。 从 理论 
上 讲 ， 缺 口 的 出 现 将 减低 搜索 的 敏感 性 。 但是， 输出 文件 所 显示 
出 的 多 个 区 域 的 排列 可 以 用 作 预 测 查询 序列 和 数据 库 序列 间 的 缺 
H (gap). 

(4) 不 同 的 BLAST 程序 及 其 用 处 

“BLASTp: 该 程序 允许 用 户 在 蛋白 数据 库 中 搜索 所 需要 的 
蛋白 序列 。 可 用 于 在 查询 序列 数据 库 中 寻找 与 某 一 已 知 蛋白 可 能 
同 源 的 所 有 序列 。 

* BLASTx;. 该 程序 允许 用 户 在 蛋白 数 据 库 中 搜索 翻译 的 核 
苷 酸 序 列 .被 查询 的 核 苷 酸 序列 先 被 翻译 成 6 个 可 能 的 阅读 框 。 翻 
译 后 的 核 苷 酸 序 列 通 过 与 蛋白 序列 库 进 行 比较 ， 发 现 其 中 可 能 的 
同 源 性 蛋白 。 也 可 用 于 寻找 核 苷 酸 测序 中 的 错误 。 在 这 种 情况 下 ， 
该 程序 尤其 有 用 。BLASTx 输出 文件 的 信息 也 可 以 帮助 鉴定 特定 
核 苷 酸 序列 中 尚 不 清楚 的 核 苷 酸 。 

“BLASTn: 该 程序 允许 用 户 在 核 苷 酸 数据 库 中 搜索 与 查询 
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序列 同 源 的 核 苷 酸 序列 。 一 个 新 近 测序 的 核 苷 酸 可 以 与 其 同 源 体 
进行 比较 ， 以 对 该 序列 进行 鉴定 或 发 现 是 否 有 可 能 有 其 他 序列 污 
染 。 

* tBLASTn: 允许 用 户 以 蛋白 查询 序列 在 特定 的 核 苷 酸 数 据 
库 中 搜索 翻译 的 核 苷 酸 序 列 。 在 特定 的 核 苷 酸 数据 库 中 核 苷 酸 序 
列 一 开始 被 翻译 成 6 个 可 能 的 阅读 框 ， 然 后 与 蛋白 查询 序列 进行 
比较 。 通 过 将 蛋白 查询 序列 与 特定 的 核 苷 酸 数据 库 中 翻译 的 核 苷 
酸 同 源 体 进 行 比 较 来 发 现 蛋 白 测 序 错误 时 ， 该 程序 特别 有 用 。 
tBLASTn 输出 文件 中 的 信息 还 有 助 于 澄清 特定 查询 序列 中 不 明 
的 氨基 酸 残 基 。 就 6 个 阅读 框 翻 译 比 较 方法 而 言 ，tBLASTn 与 
BLASTx 相似 , 但 它 不 是 使 用 核 苷 酸 查询 序列 (用 于 BLAST x) 去 
查询 ， 而 用 蛋白 查询 序列 。 由 于 该 程序 需要 将 特定 核 苷 酸 序列 数 
据 库 中 所 有 序列 都 翻译 成 6 个 可 能 的 读 框 ,所 以 运行 时 间 非 常 长 。 

* tBLASTx: 该 程序 首先 将 查询 的 核 苷 酸 序列 翻译 成 6 个 可 
能 的 读 框 ， 然 后 将 核 苷 酸 序列 数据 库 中 所 有 序列 也 翻译 为 6 个 可 
能 的 读 框 ， 最 后 将 查询 序列 的 翻译 结果 与 核 苷 酸 序列 数据 库 的 翻 
译 结 果 进 行 同 源 性 比较 , 以 发 现 同 源 序列 。 tBLASTx 5j BLASTx 
和 tBLASTn 的 程序 相似 ， 是 BLASTx 搜索 的 补充 。 

(5) 新 BLAST 程序 ， 

新 的 BLAST 程序 称 为 BLAST2. 0. Gapped BLAST 和 PSI- 
BLAST 是 BLAST2.0 服务 器 支持 的 两 个 应 用 程序 。 新 的 
BLAST2. 0 服务 器 已 重新 设计 ， 以 优化 速度 和 灵敏 性 ， 并 新 增 了 
支持 Gapped BLAST 和 PSI-BLAST 应 用 程序 的 能 力 。 

(6) Gapped BLAST: 

Gapped BLAST 的 算法 允许 在 序列 排列 中 引入 缺口 (gap) 以 
输出 BLAST 文件 .缺口 是 序列 中 缺失 和 插入 的 部 分 ,这 种 方法 避 
兔 了 相似 序列 区 被 分 割 成 片段 。 该 算法 的 探索 性 使 其 输出 分 值 能 
反映 相关 序列 的 生物 学 关系 。 一 般 地 说 ， 这 反映 了 保存 完好 的 序 
列 活 动 区 和 结合 区 的 情况 。 因 此 ， 缺 口 的 引入 避免 了 这 些 区 域 被 
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离散 成 无 意义 的 序列 片段 。 

(7) PSI-BLAST: 

PSI-BLAST 代表 位 点 特异 性 迭代 的 BLAST.。PSI-BLAST 一 
开始 执行 Gapped BLAST ,用 输出 序列 作为 它 自己 的 输入 文件 .这 
FÉ, PSI-BLAST 便 构建 了 一 个 位 点 特异 性 的 记分 矩阵 ,该 矩阵 取 
代 了 原始 查询 序列 ， 在 接 下 来 的 几 个 重复 数据 库 搜索 操作 中 寻找 
用 户 感 兴趣 的 主题 。 主 题 查找 增加 了 同 源 序列 查询 的 灵敏 性 。 

有 些 BLAST 工具 可 以 安装 在 局 域 网 微机 中 。 这 是 BLAST 
网 络 客户 机 的 程序 软件 。 局 域 网 的 网 络 客户 机 程序 软件 与 远程 
BLAST 服务 器 (NCBD 的 BLAST2 fil Power BLAST 间 的 信息 
交流 是 BLAST 提供 的 基本 的 网 络 服务 。 

(8) BLAST2 

BLAST2 是 BLAST 的 标准 服务 ， 用 于 比较 两 个 序列 之 间 的 
同 源 性 , 提供 HTML 格式 的 输出 文件 。 其 滤 过 能 力 能 使 用 户 找到 
低 复杂 区 序列 。 

(9) PowerBLAST 用 途 : 

这 是 一 个 网 络 BLAST 的 客户 机 程序 ， 实 施 大 范围 的 基因 组 
信息 的 分 析 任务 。 该 程序 以 及 其 他 网 络 客户 机 软件 可 在 BLAST 
的 网 络 目 录 下 ， 经 FTP A NCBI 主页 检索 。 

进入 BLAST 服务 器 的 方法 有 几 种 。 最 便捷 的 方法 是 通过 网 
址 (http://www. ncbi. nlm. nih. gov) 。BLAST 运行 中 的 网 页 界 
面 极其 友好 。 以 下 是 用 户 成 功 运行 BLAST 必须 的 一 般 步骤 : 

+ 所 关心 的 查询 序列 必须 有 正确 格式 (如 , FASTA 格式 , 只 
包含 序列 的 一 种 格式 )。 如 果 查 询 序列 是 从 NCBI 的 Entrez 检索 
所 得 的 话 ， 最 简易 的 办 法 是 自 Entrez 复制 该 序列 的 FASTA 格 
式 ， 粘 贴 到 BLAST 界面 中 。 

* 接着 , 将 编 成 适当 格式 的 序列 粘贴 到 BLAST 网 页 的 “序列 
输入 ” 框 中 。 

* 依据 分 析 序 列 的 类 型 ， 选 择 适当 的 BLAST RUF. Cn, Æ 
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白 序列 选 BLASTp, DNA 或 RNA 选 BLASTn， 等 等 )， 新 的 
BLAST 网 页 界面 要 先 选 择 要 应 用 的 程序 ， 然 后 再 粘贴 序列 。 

+ 最 后 ,选择 适当 的 数据 库 。 BLAST 的 默认 数据 库 是 NCBI 
的 nr 数据 库 。nr 数据 库 将 搜索 现 有 所 有 的 非 兄 余 序 列 。 例 如 , 如 
用 户 只 想 查询 结构 已 知 的 同 源 性 序列 ， 那 么 ， 搜 索 已 知 分 子 结构 
的 特异 性 数据 库 是 较为 明智 的 。 因此 , 用 户 可 以 选择 PDB 作为 首 
选 数据 库 。 然 后 点 击 “Submit” 链 接 将 序列 发 送 到 BLAST 服务 器 。 
搜索 结果 既 可 通过 电子 邮件 获得 , 也 可 在 BLAST 网 页 界面 查看 。 
分 析 多 个 序列 文件 时 ， 电 子 邮件 途径 较为 理想 。 它 可 使 用 户 高 效 
率 地 分 析 感 兴趣 的 序列 , 并 且 能 分 析 后 来 的 部 分 结果 (BLAST 
片 可 以 保存 为 GIF 文件 )。 

如 前 面 叙述 的 那样 , BLAST 还 可 经 BLAST 网 络 客 户 程序 获 
得 。 这 样 的 话 ， 用 户 首先 必须 通过 FTP (ftp://ncbi. nim. nih. 
gov) 安装 合适 的 BLAST 网 络 客户 程序 软件 。 还 可 通过 NCBI 的 
电子 邮件 服务 器 (blast@ncbi. nlm. nih. gov) 完成 BLAST 搜索 。 
这 主要 适用 于 不 便 上 网 的 人 . 同样 , 查询 序列 必须 有 适当 的 格式 ， 
以 便 BLAST 能 完成 相应 的 操作 。 运行 BLAST 的 另 一 个 方法 是 ， 
在 局 域 网 微机 上 安装 完全 可 执行 版 本 ， 搜 索 用 户 局 部 数据 库 。 
BLAST 的 这 个 版 本 可 在 BLAST 的 “executables” 路 径 下 找到 , 可 
经 FTP (ftp://ncbi. nlm. nih. gov) 获得 。 可 以 获得 BLAST 用 于 
IRIX6.2, Solaris2. 5, DEC OSF1 及 Win32 操作 系统 的 版 本 。 
BLAST 查询 结果 中 检索 的 序列 与 NCBI 的 Entrez 以 及 PubMed 
服务 器 有 直接 或 间接 的 链接 ， 从 而 可 以 得 到 查询 结果 的 序列 和 相 
XXE. 

(10) BLAST 输出 文件 中 期 望 值 (expect, E W) HEX: 

在 特定 的 数据 库 中 ,期 望 偶然 匹配 的 几率 大 小 称 为 下 值 。 因 
此 ， 得 到 较 低下 值 的 查询 结果 有 意义 。E 值 为 零 意 味 着 这 一 特殊 
的 查询 结果 被 随机 匹配 的 可 能 性 是 零 。 这 样 ， 一 个 结果 的 瑟 值 表 
明 在 特定 的 数据 库 中 发 现 相似 序列 匹配 的 可 能 性 。E 值 是 特定 匹 
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配 中 基本 的 随机 噪声 。 随 记分 值 (score, S fA) 的 增加 , E 值 呈 指 
数 性 减少 , 即 随机 噪声 减低 , 表明 序列 同 源 性 较 高 。 可 以 增加 下 值 
以 发 现 统计 学 意义 较 小 的 结果 ， 对 于 统计 学 意义 较 小 的 短 肽 或 短 
核 苷 酸 序列 ， 加 大 下 值 可 能 会 得 到 查询 结果 。 
6. EBI 的 同 源 搜索 工具 一 -FASTA 
FASTA 是 EBI 提供 的 同 源 搜索 工具 ， 目 前 EBI 网 页 提供 的 
最 新 版 本 是 FASTA3 (http://www2. ebi. ac. uk/fasta3/), 
FASTA3 可 以 接受 多 种 序列 格式 的 查询 ， 如 : FASTA, GCG, 
EMBL, Genbank, NBRF 和 Phylip 等 。 对 于 短 序 列 的 查询 (1-6 
PRR), FASTAS 的 输出 结果 没有 BLAST 多 , 但 其 结果 的 相 
关 性 更 高 。FASTA3 提供 多 种 应 用 程序 的 选择 : 
“fasta3: 查询 序列 与 一 个 DNA. 或 蛋白 质数 据 库 同 源 性 比 
较 。 
* fastx/y3: 用 于 一 个 翻译 的 DNA 序列 6 个 可 能 的 读 框 与 蛋 
白质 数据 库 同 源 性 比较 。 
+ tfastx/y3: 用 于 一 个 蛋白 序列 与 翻译 的 DNA 序列 数据 库 
中 所 有 序列 比较 。 
* fasts3: 用 于 连接 肽 与 蛋白 质数 据 库 比 较 。 
“fastf3: 用 于 混合 肽 与 蛋白 质数 据 库 比较 。 
FASTA3 同 源 性 比较 中 可 以 选择 的 数据 库 ， 
* swall: SWALL 非 元 余 蛋白 质 序 列 数据 库 (Swissprot + 
Trembl 十 TremblNew) 
+ swissprot: SWISS-PROT 蛋白 质 序列 数据 库 
*swnew: SWISS-PROT 的 更 新 数据 库 
* sptrembl; SPTREMBL (TrEMBL) 数据 库 
* remtrembl; REMTREMBL (TrEMBL 中 未 处 理 的 条 目 ) 
* PDB: Brookhaven 的 蛋白 质数 据 库 
* ENSEMBL: ENSEMBL 编码 区 数据 库 
* Euro Pat: 欧洲 专利 局 (European Patent Office) 蛋白 序列 


erp 
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专利 数据 库 

+ Japan Pat: 日 本 专利 局 Japanese Patent Office) 蛋白 序列 
专利 数据 库 

+ USPTO Pat: 美国 专利 商标 局 (United States Patent and 
Trademark Office) 蛋白 序列 专利 数据 库 

+ EMBL; EMBL tf MUTI SGR E 

+ EFUN: EMBL 真菌 序列 数据 库 

+ EINV: EMBL 无 背 椎 动物 序列 数据 库 

* EHUM : EMBL 人 类 序列 数据 库 

* EMAM: EMBL 哺乳 动物 序列 数据 库 

* EORG; EMBL 细胞 器 序列 数据 库 

* EPHG; EMBL 噬菌体 序列 数据 库 

-。EPLN: EMBL 植物 序列 数据 库 

+ EPRO: EMBL 原核 生物 序列 数据 库 

* EROD: EMBL 吐 齿 动物 序列 数据 库 

* ESTS; EMBL 序列 标签 位 点 数据 库 

+ ESYN: EMBL 合成 序列 数据 库 

* EUNA: EMBL 未 分 类 序列 数据 库 

+ EVRL: EMBL 病毒 序列 数据 库 

。EVRT: EMBL 少 椎 动物 序列 数据 库 

+ EEST: EMBL 表达 序列 标签 数据 库 

+ EGSS: EMBL 基因 组 探 察 序列 数据 库 

* EHTG; EMBL 高 通 量 基 因 组 序列 数据 库 

*EMNEW: EMBL 更 新 序列 数据 库 

。 EMALL: EMBL+EMBL 更 新 序列 数据 库 

* IMGT: IMGT 免疫 遗传 标记 数据 库 

* HGBASE: 欧洲 单 核 苷 酸 多 态 性 数据 库 

FASTA3 有 自己 的 一 套 独 特 记 分 方法 ， 这 里 就 不 在 袭 述 。 用 

户 可 以 根据 自己 的 需要 选择 不 同 的 程序 和 数据 库 达 到 自己 的 目 
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的 。 

7. 数据 库 序列 搜索 概述 

序列 搜索 是 指 将 一 个 已 知 序列 与 数据 库 中 的 序列 进行 比较 ， 
以 发 现 数据 库 中 与 已 知 序列 同 源 的 序列 。 

(1) 目的 : 

+ 寻找 同 源 性 序列 ， 推 断 查询 序列 的 特性 。 

* 鉴定 已 知 三 维 结构 的 同 源 性 序列 ,预测 靶 序 列 的 三 维 结构 ， 
推断 其 功能 特性 。 

(2) 可 能 的 问题 : 

在 特定 的 数据 库 中 ， 能 否 区 分 是 真正 的 同 源 性 序列 还 是 碰巧 
发 现 的 序列 ， 仍 是 一 个 问题 。 这 些 不 能 辨别 的 结果 必须 经 过 进 一 
步 地 检测 ， 以 了 解 其 与 查询 序列 的 真正 关系 。 

(3) 序列 数据 库 搜索 的 方法 : 

* 需要 一 个 查询 序列 ， 即 需要 分 析 的 靶 序 列 。 查 询 序 列 可 以 
是 一 个 新 近 测 定 的 序列 ， 性 质 有 待 鉴定 ;也 可 以 是 特性 已 知 的 序 
列 。 数 据 库 搜索 可 帮助 确定 新 近 测定 的 序列 性 质 ， 或 者 帮助 某 一 
已 知 查询 序列 条 目 发 现 其 可 能 的 序列 同 源 体 。 

* 选择 适当 的 服务 器 。 服 务 器 必须 是 可 靠 的 、 定 期 更 新 的 以 
及 有 影响 的 。 这 些 特点 一 般 让 人 想起 政府 或 政府 资助 的 生物 信息 
服务 器 ， 如 : NCBI, NCBI 是 几 个 公共 领域 数据 库 和 搜索 工具 的 
集合 ， 易 于 通过 互联 网 获得 ， 且 与 大 多 数 的 网 页 浏览 器 兼容 。 当 
oR, EBI 也 是 很 好 的 选择 。 

* 在 特定 的 服务 器 中 ， 选 择 合适 的 程序 或 程序 组 。 如 果 选 定 
T NCBI 服务 器 ， 并 需要 一 个 执行 简单 的 序列 相似 性 搜索 的 工具 
的 话 ， 那么，BLAST 程序 便 很 合适 。 同 样 也 可 以 选择 EBI 的 
FASTA 程序 。 

+ 选择 一 个 合适 的 BLAST 程序 用 于 简单 的 序列 相似 性 搜 
索 ， 如 果 所 查询 的 是 蛋白 序列 ，BLASTp 是 合适 的 工具 。 如 果 要 
查询 DNA 或 RNA 序列 ， 则 必须 应 用 BLASTn 程序 。 它 们 仅 是 
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BLAST 服务 器 多 个 数据 库 中 的 两 个 程序 。 其 他 的 BLAST 程序 
(如 tBLASTn,tBLASTx) 可 用 于 寻找 被 查询 序列 的 同 源 性 序列 ， 
也 可 执行 更 高 级 任务 。 例 如 ，BLASTx 程序 可 用 于 发 现 基因 中 的 
潜在 编码 区 ; 而 其 他 的 BLAST 程序 可 用 于 查 对 新 近 确 定 的 序列 
中 可 能 存在 的 测序 错误 。 

， 选 择 适 当 的 数据 库 。 有 两 种 方法 : 其 一 ， 搜 索 包含 所 有 相 
关 序列 的 数据 库 ,这 是 一 个 包含 了 所 有 提交 条 目的 非 兄 余数 据 库 。 
这 种 方法 能 使 用 户 在 所 有 序列 条 目 中 进行 搜索 。 其 二 ， 搜 索 特定 
的 数据 库 。 在 这 种 情形 下 ， 用 户 只 须 关 心 某 一 特定 的 数据 库 。 例 
如 ， 如 果 用 户 想 寻找 已 知 三 维 结构 的 同 源 性 序列 , PDB (Protein 
Data Bank) 数据 库 则 是 最 合理 的 选择 , 因为 其 所 有 序列 条 目的 三 
维 结构 都 是 已 知 的 。 

“选择 适当 的 滤器 (filter)。 为 方便 用 户 ，BLAST 在 每 一 个 
程序 中 插入 了 一 套 滤 器 选择 项 ,滤器 选项 可 以 排除 低 复杂 区 序列 。 
由 于 序列 的 重复 属性 ， 在 搜索 内 的 假 阳 性 结果 或 随机 结果 的 概率 
增加 , 最终 使 结果 模糊 不 清 。 我 们 推荐 在 特定 的 搜索 中 使 用 滤器 ， 
以 减 小 假 阳 性 的 数量 .但 滤器 选项 有 可 能 从 结果 中 排除 掉 真 阳性 。 
低 复杂 区 真 阳性 结果 则 可 能 从 输出 文件 中 排除 。 所 以 滤器 选项 可 
能 会 降低 搜索 的 灵敏 性 。 如 何 才能 最 大 限度 地 提高 搜索 的 灵敏 性 ， 
同时 又 可 减少 假 阳性 的 发 生 ? 这 可 通过 对 同一 查询 序列 实施 两 次 
不 同 的 搜索 而 实现 。 在 一 次 搜索 中 , 应 用 滤器 ,减少 假 阳性 结果 ; 
而 另 一 次 不 用 滤器 ， 以 增加 灵敏 性 。 将 两 次 搜索 结果 的 输出 文件 
进行 比较 ， 找 出 用 滤器 排除 掉 的 可 能 的 真 阳性 结果 。 

* 阅读 、 理 解 及 分 析 输 出 文件 。 为 从 搜索 查询 结果 中 得 出 可 
能 的 假设 ， 用 户 需要 熟悉 输出 文件 中 的 术语 。 输 出 文件 的 关键 要 
素 是 每 一 个 查询 结果 的 分 值 和 数据 库 给 予 每 个 结果 的 序列 号 。 每 
个 查询 结果 的 分 值 暗示 其 与 查询 序列 的 同 源 性 。 在 BLAST 输出 
文件 中 , 同 源 性 也 与 赋予 每 个 结果 的 期 望 值 (E 值 ) 相关 。E 值 是 
随机 或 偶然 采集 序列 的 概率 ， 越 接近 零 ， 在 特定 的 数据 库 中 ， 被 
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随机 采集 的 可 能 性 就 越 小 。 

(4) 应 用 网 络 数据 库 相 对 于 局 域 数据 库 的 优点 : 

* 网络 数据 库 是 定期 更 新 的 。NCBI 和 欧洲 的 EBI 及 日 本 的 
DDBJ 通力 合作 , 使 他 们 的 数据 库 每 日 都 在 更 新 。 这 种 每 日 的 更 新 
给 其 用 户 提供 了 可 靠 和 非 宛 余 的 资源 。 

" 对 局 域 数据 库 的 维护 决 非 小 事 。 在 大 多 数 情况 下 ， 超 出 了 
一 般 用 户 的 能 力 。 应 用 和 维护 个 人 数据 库 费 时 ， 而 且 昂 贵 。 这 些 
障碍 提高 了 NCBI、EBI 以 及 DDBJ 等 公共 领域 网 络 数 据 库 的 价 
值 。 

“网络 数 据 库 给 他 们 的 用 户 提供 了 适当 的 搜索 工具 。NCBI 
提供 给 用 户 BLAST 服务 器 , EBI 和 DDBJ 也 一 样 。 通 过 公共 领域 
服务 器 提供 的 搜索 工具 也 能 定期 更 新 ， 这 也 有 利于 用 户 的 使 用 。 

《5) 应 用 网 络 数 据 库 而 不 应 用 局 域 数 据 库 的 缺点 : 

* 网 络 瘫痪 时 ， 局 域 数据 库 则 易于 登陆 。 

* 用 户 受 限于 网 络 数据 库 所 提供 的 搜索 工具 。 网 络 服务 器 所 
采用 的 扫描 方法 并 不 总 是 最 高 效 的 。 通 过 局 域 服 务 器 采用 局 部 扫 
描 的 方法 可 能 对 某 一 特定 的 搜索 更 为 合适 。 

本 节 所 描述 的 BLAST 程序 可 通过 BLAST 服务 器 www. 
ncbi. nim. nih. gov (NCBI 主页 ) 获得 。 

二 、 特 征 识别 工具 和 数据 库 

Prosite 是 最 广泛 应 用 的 数据 库 之 一 ， 包 含 生物 基 序 (moti 
和 识别 标志 。Prosite 是 一 个 在 许多 蛋白 中 发 现 的 功能 位 点 和 序列 
特征 的 集合 。 

1. Prosite 数据 库 储 存 的 信息 及 对 用 户 的 作用 

Prosite 收集 和 拥有 许多 特征 性 结合 位 点 和 基 序 。 在 多 数 情况 
F, Prosite 的 条 目 与 其 他 适当 的 网 站 相互 联系 ， 并 相互 参考 。 例 
Jil, Prosite 详细 记录 了 钙 结 合 位 点 EF-hand 的 识别 标志 , 该 条 目 
特征 是 由 SWISS-PROT 文件 详细 描述 的 。 这 些 条 目 一 般 都 与 
SWISS-PROT 及 其 他 相关 数据 库 相 联系 。 
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+ Prosite 文件 包括 : 含有 所 关心 的 配对 序列 的 基 序 或 识别 标 
志 。 该 文件 同时 通知 用 户 假 阳 性 、 假 阴性 的 可 能 性 以 及 有 疑问 的 
配对 序列 。 假 阳性 序列 是 一 类 侦 然 性 的 识别 标志 或 基 序 。 假 阳性 
序列 一 般 缺 乏 所 关心 序列 基 序 的 功能 特性 。 假 阴性 序列 是 与 查询 
序列 具有 真正 相同 功能 的 结果 ， 但 缺乏 特异 性 识别 信号 的 一 类 序 
列 。 可 疑 序列 是 与 查询 序列 有 共同 的 基 序 特征 但 功能 意义 尚 不 能 
经 实验 证 实 的 一 组 序列 。 通 过 实验 可 以 将 这 些 可 疑 序列 进行 假 阳 
性 或 真 阳性 分 类 。 这 种 信息 类 型 给 用 户 提供 强大 的 工具 ， 提 高 其 
工作 效率 。 

* Prosite 拒绝 匈 余 信息 。 为 了 减少 元 余 基 序 , 已 经 详细 研究 
了 特征 性 识别 信号 。 

+ Prosite 有 特征 配对 的 搜索 工具 。 可 应 用 PROMOT 搜索 工 
具 在 Prosite 数据 库 中 找寻 配对 序列 ,也 可 用 它 在 一 些 给 定 的 特征 
中 与 感 兴趣 的 序列 配对 。Prosearch 是 另 一 个 搜索 工具 , 可 以 用 特 
定 的 序列 特征 或 识别 信号 来 查找 SWISS-PROT 及 Tremble 的 数 
据 库 。 通 过 Prosearch, 可 以 在 SWISS-PROT 和 TREMBL 所 有 序 
列 条 目 中 有 效 地 发 现 新 的 序列 识别 信号 和 特征 。 

2. Prosite 文件 资料 的 提供 方式 : 

每 个 序列 特征 文件 以 “. doc” 文 件 出 现 , 而 实际 的 序列 特征 
则 出 现在 另 一 个 分 开 的 文件 中 , 标记 为 “dat” 文 件 。 dat 文件 包含 
了 特征 扫描 程序 和 其 他 序列 特征 编辑 程序 所 需要 的 有 关 信息 。 

3. 识别 信号 的 含义 及 阅读 和 构建 的 方法 : 

为 了 更 好 地 理解 Prosite 数据 库 中 用 于 每 个 识别 信号 中 的 符 
”号 ,以 钙 结 合 位 点 EF-hand 序列 基 序 为 例 , 表示 Prosite 以 钙 结合 
位 点 EF-hand 的 识别 信号 dà: D-X-[ DNS ]-{ DENSTG }- 
[DNQGHRK ]-{GP }-[LIVMC ]-LDENQSTAGC ]-X (2)-[DE ]- 
[LIVMFYW] 

说 明 : 

1. 连 字符 用 来 分 离 序列 基 序 中 的 每 个 位 置 。 
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2.[ ] :每 个 括 弧 中 的 残 基 代表 序列 基 序 中 某 一 特殊 位 置 允许 
出 现 的 残 基 。 例如， 在 [DNS] rp. 在 其 特定 位 置 允 许 的 残 基 是 
天 门 冬 氨 酸 、 天 冬 酰胺 和 丝氨酸 。 

3. C): 大 括号 中 的 符号 代表 序列 基 序 中 特定 位 置 不 允许 出 
现 的 残 基 。 换 句 话说 ， 该 特定 位 置 允许 出 现 其 他 残 基 。 

4. X; 表示 二 十 个 氨基 酸 中 的 任何 一 个 。 

5. m: 代表 某 特定 残 基 或 氨基 酸 X 的 重复 数 。 例 如 ，X 
(2) 代表 -X-X-。 

6. (a, m): 代表 n 和 m 间 一 段 序列 的 重复 长 度 。 例 如 ，A 
(2, 5) 意味 着 在 序列 基 序 中 的 一 个 特定 位 置 上 , 可 能 出 现 连 续 2、 
3、4 或 5 个 丙 氨 酸 ， 
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基因 组 研究 的 意义 在 于 ， 它 可 以 支持 和 推动 生命 科学 中 一 系 
列 重要 的 基础 性 研究 。 如 基因 组 遗传 语言 的 破译 ， 基 因 的 结构 与 
功能 关系 ， 生 命 的 起 源 和 进化 ， 细 胞 发 育 、 分 裂 、 分 化 的 分 子 机 
理 ， 疾 病 发 生 的 机 理 等 。 在 生命 科学 中 ， 基 因 已 成 为 共同 的 语言 
和 基础 。 从 整体 水 平 研究 基因 的 存在 、 结 构 、 功 能 及 其 相互 作用 ， 
从 研究 策略 上 把 遗传 学 升华 至 基因 学 和 基因 组 学 ， 这 在 理论 上 具 
有 深远 的 指导 意义 。 在 自然 科学 史上 ， 人 类 基因 组 计划 是 第 一 次 
将 人 的 物质 结构 、 功 能 及 其 相互 作用 (KA) 转换 为 信息 的 科学 
实践 。 它 建立 了 遍布 全 球 的 不 断 扩充 的 数据 库 和 信息 网 络 。 这 不 
仅 使 生命 科学 开始 了 信息 化 革命 ， 产 生 了 极 具 生 命 力 的 生物 信息 
学 ， 而 且 也 大 大 刺激 了 其 他 相关 学 科 与 技术 领域 的 发 展 ， 如 计算 
机 科学 、 材 料 科学 等 新 兴学 科 和 数理 化 等 经 典 学 科 ， 并 将 带动 起 
一 批 新 兴 的 高 技术 产业 。 其 研究 成 果 可 直接 指导 和 转化 为 实际 应 
用 ， 具 有 不 可 估量 的 社会 效益 和 经 济 效益 。 本 章 介 绍 基因 组 分 析 
的 一 些 方法 和 生物 信息 学 在 基因 组 分 析 中 的 应 用 。 


第 一 节 DNA 克隆 和 PCR 


DNA 序列 的 研究 通常 需要 一 些 预测 工具 :包括 对 新 发 现 的 基 
因 进 行 序列 相似 性 分 析 以 得 到 一 些 生 理 功 能 和 结构 的 信息 ， 发 现 
有 意义 的 序列 片段 〈 判 断 序列 的 生物 学 意义 是 通过 预测 生物 学 完 
成 的 ); 检测 基因 或 mRNA 的 分 布 情况 〈 其 分 布 情况 通常 是 生物 
体 中 基因 活性 的 指示 剂 ); PCR (聚合 酶 链 式 反应 ) 用 来 扩 增 一 定 
数量 DNA， 以 便 用 于 纯化 、 测 序 和 突变 分 析 。 
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生物 信息 学 基本 上 是 对 数据 库 的 利用 ， 即 摘录 、 分 类 和 分 析 
基因 、 基 因 组 和 蛋白 质 的 序列 信息 。 这 些 信息 的 来 源 实际 上 就 是 
基因 测序 。 基 因 首先 要 被 分 离 出 来 ， 克 隆 到 适当 的 载体 中 以 便于 
在 实验 室 中 操作 ， 克 隆 和 测序 本 身 并 不 是 生物 信息 学 的 内 容 ， 而 
是 与 生物 信息 学 相关 联 的 操作 过 程 。 序 列 数量 的 增加 促进 了 统计 
分 析 的 质量 ， 同 样 ， 新 的 生物 信息 学 软件 的 发 展 可 以 促进 与 序列 
相关 的 生物 学 功能 的 识别 ， 也 可 以 加 快 新 基因 的 检测 和 克隆 。 

由 于 分 析 序 列 和 结构 信息 所 要 求 的 准确 率 很 高 ， 所 以 要 严格 
及 时 地 评估 所 采用 方法 的 准确 性 .这 也 有 助 于 人 们 理解 获得 DNA 
和 蛋白质 序列 的 生物 学 背景 。 

一 、DNA 克隆 

克隆 一 般 是 指 单个 祖先 通过 无 性 繁殖 得 到 遗传 上 完全 相同 的 
一 组 细胞 。 本 书 所 谓 的 克隆 特 指 通过 DNA 重组 技术 操作 DNA 的 
过 程 ， 用 来 产生 多 拷贝 的 单 基 因 或 DNA 片段 ， 将 所 需 基因 或 
DNA 片段 从 染色 体位 点 上 切割 下 来 ,并 插入 到 可 以 在 宿主 生物 中 
复制 或 扩 增 的 载体 DNA 中 ,这些 克隆 载体 源 自 病毒 细菌 或 酵母 
的 DNA 分子, 包含 着 可 以 使 DNA 在 宿主 细胞 中 独立 复制 的 启动 
子 序列 。 细菌 启动 子 用 于 哺乳 动物 表达 系统 的 载体 时 , 细菌 RNA 
多 聚 酶 会 特异 地 控制 载体 DNA 而 不 会 影响 细胞 基因 组 。 外 源 
DNA 片段 可 以 插入 载体 DNA 而 不 会 使 载体 失去 在 细胞 自然 环 
境 下 自身 复制 的 能 力 ， 从 而 使 外 源 DNA 片段 可 以 在 宿主 细胞 中 
大 量 地 复制 。 载 体 可 以 是 质粒 (来 自 细菌 )、 粘 粒 〈 来 自 病 毒 )、 酵 
母 或 细菌 人 工 染 色 体 (YACs， 真 核 细 胞 来 源 ; BACs, ~150kbp 
插入 子 )。 具 有 基因 表达 调节 元 件 的 载体 也 称 为 表达 载体 。 这些 元 
件 可 以 用 来 合成 大 量 的 mRNA 或 蛋白 质 , 而 宿主 生物 体 在 正常 时 
可 以 是 不 包含 或 不 表达 这 些 基 因 的 。 

每 个 序列 在 储存 于 计算 机 数据 库 之 前 ， 首 先 要 克隆 DNA 和 
构建 组 织 标本 的 文库 。 在 基因 组 计划 中 , 基因 组 DNA 通过 鸟 枪 法 
的 技术 被 机 械 地 剪 切 或 被 放射 诱导 打 断 ， 将 DNA 片段 收集 起 来 
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并 重组 到 载体 中 ， 这 些 克隆 片段 的 集合 就 组 成 了 文库 。 一 个 载体 
包含 一 个 基因 ， 可 以 进行 功能 研究 或 转化 细胞 。 

二 、 转 录 谱 

如 何 选择 被 研究 的 基因 ? 一 个 基因 是 一 段 碱 基 序列 ， 抛 开 基 
因 序列 可 以 用 于 预测 蛋白 的 功能 不 谈 ， 基 因 序列 对 研究 基因 编码 
蛋白 的 生物 化 学 和 生理 学 的 工作 是 必须 的 。 在 着 手 细胞 生物 学 和 
生物 化 学 的 实验 室 研究 之 前 ， 一 个 基因 的 活性 谱 〈 即 基因 在 机 体 
内 的 何 种 发 育 阶段 和 在 何 种 细胞 中 表达 并 合成 蛋白 质 ) 是 首要 的 
信息 ,以 便于 一 个 研究 计划 的 设计 或 确定 要 研究 的 邯 基 因 和 药物 。 
在 特殊 情况 下 ， 有 些 基因 可 能 会 限制 在 某 些 细胞 类 型 、 组 织 或 器 
官 中 表达 ， 它 们 的 表达 活性 可 能 在 健康 和 疾病 〈 如 肿瘤 ) 的 情况 
下 有 变化 ， 或 在 年 轻 人 和 老人 之 间 有 所 不 同 。 

要 评估 一 个 基因 在 特殊 细胞 类 型 .组 织 或 器 官 中 的 功能 意义 ， 
首先 要 找到 能 表达 靶 基 因 的 细胞 (可 通过 Northern blot 方法 ) 。 这 
个 工作 就 是 要 找到 作为 蛋白 质 合成 模板 的 信使 RNA (mRNA 中 
的 m 是 指 信使 的 意思 ， 是 指 用 于 指导 DNA 序列 翻译 成 为 氨基 酸 
序列 的 RNA 的 序列 )。 细 胞 内 胞 浆 mRNA 水 平 是 很 好 的 基因 活 
HERRIA. mRNA 的 高 水 平 表达 通常 表示 蛋白 质 表达 水 平 高 , 但 
由 于 还 存在 转录 后 调控 的 过 程 ， 因 此 情况 并 不 都 是 这 样 。 在 研究 
中 ， 如 果 要 涉及 蛋白 质 的 表达 水 平 ， 必 须 另 外 独立 检测 。 

确认 mRNA 表达 的 方法 是 利用 放射 性 标记 的 蹇 核 萌 酸 或 
cDNA 探 针 进行 杂交 ， 赛 核 童 酸 或 cDNA 探 针 以 序列 特异 性 的 方 
式 来 识别 目的 mRNA 。 很 明显 ,首先 要 获得 一 些 序列 信息 ， 这 些 
信息 可 以 来 自 蛋 白质 片段 或 肽 段 的 短 氨基 酸 序列 ， 或 者 通过 查询 
DNA 数据 库 得 到 所 需要 的 序列 。 例如 : 一 个 与 已 知 小 鼠 或 大 鼠 基 
因 同 源 的 人 类 基因 、 或 序列 相似 但 并 非 同 源 序列 且 可 能 代表 一 个 
新 基因 的 序列 等 等 。 比 较 细胞 或 生物 体 的 不 同 标本 在 生命 周期 中 
的 不 同 阶段 表达 谱 的 不 同 ， 或 者 比较 在 各 种 情况 下 细胞 和 机 体 发 
育 之 中 细胞 分 化 前 后 表达 谱 的 变化 ， 其 比较 结果 可 以 构建 一 个 时 
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间 - 空 间 图 来 表示 机 体内 一 个 或 一 组 特异 基因 表达 活性 的 情况 。 

一 旦 确认 了 感 兴趣 的 研究 基因 ， 就 应 当 分 离 并 扩 增 包含 该 基 
因 的 DNA 片段 。 一 种 策略 是 利用 逆转 录 酶 制备 mRNA 片段 的 一 
^r DNA 拷贝 。 编 码 mRNA 的 基因 可 以 在 体外 合成 ， 称 为 互补 
DNA 或 cDNA (complement DNA) .cDNA 代表 基因 的 编码 序列 ， 
包括 mRNA 两 端 短 的 非 编码 区 中 的 调节 序列 .明确 真 核 生 物 基因 
编码 区 非常 重要 ， 这 是 因为 大 部 分 真 核 生 物 基因 在 细胞 核 染色 体 
上 的 组 织 方式 很 特殊 , 与 mRNA 上 的 序列 有 明显 不 同 。 一 个 真 核 
生物 基因 的 基因 组 序列 通常 比 其 cDNA 序列 长 , 这 是 由 于 基因 组 
序列 是 由 编码 区 (外 显 子 ) 和 非 编 码 区 (内 含 子 ) 组 织 而 成 的 。 尽 
管 全 部 基因 序列 〈 包 括 外 显 子 、 内 含 子 和 调控 序列 ) 都 被 转录 为 
mRNA, mRNA 仍然 会 被 催化 修饰 并 去 除 内 含 子 ， 这 就 剩 下 一 个 
变 短 的 mRNA 一 一 包含 了 基因 组 序列 中 的 所 有 外 显 子 。 这 就 是 为 
什么 要 用 mRNA 来 合成 cDNA 并 且 用 cDNA 来 代表 基因 (与 基 
因 组 序列 明显 不 同 ) 的 原因 ,cDNA 可 以 被 克隆 到 载体 中 并 很 容易 
地 用 于 实验 室 研究 (例如 : 体外 合成 蛋白 质 , 用 DNA 转 染 细胞 系 
和 转基因 动物 研究 ) 。 

三 、 定 点 克隆 

检测 遗传 性 疾病 基因 的 一 种 策略 是 定点 克隆 。 克 隆 一 种 能 导 
致 某 疾病 或 在 疾病 发 展 过 程 中 起 作用 的 基因 ， 首 先 要 利用 遗传 标 
记 定 位 于 染色 体 。 遗 传 标记 是 基因 组 中 很 容易 检测 的 短 的 非 编码 
区 。 在 这 种 方法 中 ， 要 分 析 人 群 遗传 学 中 的 家 族 史 一 一 在 人 群 中 
一 些 基因 (等 位 基因 ) 的 突变 以 特异 的 频率 出 现 。 等 位 基因 是 指 
存在 于 某 一 人 群 中 每 个 个 体 基因 组 中 的 一 个 特殊 基因 。 基 因 的 实 
际 序列 在 每 个 个 体 之 间 有 可 能 由 于 随机 发 生 的 突变 而 不 同 ， 而 许 
多 突变 对 于 表 型 〈 也 就 是 蛋白 质 功能 ) 没有 明显 的 影响 ， 但 有 的 
突变 可 以 导致 蛋白 质 功能 的 改变 ， 所 以 某 一 基因 可 具有 若干 种 不 
同 的 形式 ， 这 种 同一 基因 的 各 种 不 同形 式 互 称 为 等 位 基因 。 一旦 
染色 体 定位 完成 ， 带 有 大 的 插入 子 的 克隆 可 以 通过 物理 作 图 来 确 
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定 ， 然 后 通过 测序 来 确定 基因 。 最 后 ， 通 过 突变 分 析 比 较 来 确认 
人 群 中 受 影响 和 未 受 影响 个 体 的 基因 变化 。 

如 果 全 基因 组 序列 已 经 知晓 ， 就 可 以 大 大 地 加 快 确认 疾病 相 
关 基 因 突 变 的 过 程 , 这 就 是 人 类 基因 组 计划 要 达到 的 目的 之 一 .人 
类 基因 组 的 序列 实际 上 只 是 一 些 个 体 的 序列 ， 只 代表 了 某 一 人 群 
中 等 位 基因 变化 的 少 部 分 信息 。 研 究 等 位 基因 的 变化 要 通过 比较 
部 分 表 型 的 部 分 基因 组 来 达到 目的 。 由 于 不 可 能 将 每 个 个 体 的 全 
部 基因 组 测序 ， 在 定点 克隆 方法 中 对 人 和 群 中 不 同 个 体 的 突变 分 析 
仍然 是 必需 的 步骤 。 多 态 性 数据 库 就 是 为 了 产生 这 些 信息 而 构建 
的 。 另外， 有 关 各 种 疾病 、 感 染 的 易 感性 、 肿 瘤 和 可 能 的 机 体 生 
理 代谢 途径 等 等 内 容 的 数据 库 ， 在 将 来 会 越 来 越 多 。 

NCBI 提供 了 OMIM 数据 库 (Online Mendelian Inheritance 
in Man, 人 类 孟 德 尔 遗 传 在 线 数据 库 )。 该 数据 库 是 一 个 人 类 基因 
和 遗传 性 疾病 的 目录 ， 由 Victor A. McKusick 博士 和 Johns 
Hopkins 大 学 的 同事 编辑 , 包含 了 文本 信息 、 图 片 和 文献 信息 。 在 
1998 年 9 月 升级 的 数据 库 中 有 一 个 与 眼睛 散光 相关 的 基因 信息 
(OMIM 编号 # 603047) , 这 个 研究 说 明确 定 一 个 家 族 性 疾病 是 非 
常 困难 的 。 散 光 是 利用 OMIM 数据 库 进行 研究 的 一 个 例子 。 


Clementi 等 人 研究 了 一 个 地 区 性 的 样本 (Clementi, M. et al. 
Inheritance of astigmatism: evidence for a major autosomal dominant locus. 
Am J Hum Genet. 63; 825-830, 1998), 其 中 125 个 家 族 的 个 体 有 眼睛 散光 ， 
并 有 遗传 史 。 他 们 利用 POINTER 和 COMDS 软件 进行 了 复杂 的 分 离 分 析 。 
POINTER 不 能 区 分 不 同 的 遗传 模型 ， 只 能 排除 非 家 族 遗 传 的 假说 。 加 入 几 
个 严格 的 参数 后 , COMDS 的 分 析 结 果 确 定 了 角膜 散光 的 遗传 模型 ， 并 且 提 
供 了 该 疾病 是 单个 主要 位 点 遗传 的 证 据 . 这 些 结果 提示 遗传 连锁 分 析 是 可 行 
的 , 并 且 样 本 应 当 限制 在 具有 严重 受累 个 体 的 多 个 家 庭 。 考虑 为 常 染 色 体 显 
性 遗传 疾病 比较 合适 。 


在 应 用 新 开发 的 软件 进行 这 个 基因 组 分 析 之 前 ， 散 光 被 认为 
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是 没有 遗传 性 的 , 而 环境 因素 是 其 主要 的 致 病因 子 。 例 如 ,在 1989 
年 之 前 ,Teikari 和 O'Donnell (Teikari, J. M. O'Donnell, J. J. 
Astigmatism in 72 twin pairs. Cornea 8; 263-265, 1989) 就 提出 
遗传 因素 不 是 散光 的 致 病因 子 ， 而 环境 因素 是 其 主要 的 原因 。 

四 、 多 聚 酶 链 式 反应 (PCR) 

DNA 扩 增 的 革命 性 技术 革新 是 多 聚 酶 链 式 反应 (Polymerase 
Chain Reaction, PCR). 1985 年 由 Kary B. Mullis 开发 了 PCR d£ 
A, 他 后 来 在 Cetus Corperation 就 职 。1993 年 , 由 于 对 分 子 生物 
学 的 突出 贡献 , Kary B. Mullis 获得 了 诺 贝 尔 奖 。 今 天 , 几乎 全 球 
的 每 个 分 子 生 物 学 实验 室 都 在 使 用 着 他 的 技术 。 其 操作 过 程 已 经 
实现 自动 化 ， 扩 增 从 小 量 到 大 量 DNA 的 自动 化 仪器 都 已 经 商品 
化 。 整 个 过 程 从 引物 设计 〈 设 计 骞 核 苷 酸 以 寻找 基因 组 文库 中 的 
靶 基 因 序 列 ) 到 研究 器 官 中 的 基因 表达 都 可 以 用 计算 机 软件 完成 。 

由 于 序列 数量 的 增长 使 我 们 可 以 寻找 未 知 基 因 的 功能 单位 。 
通过 测序 信使 RNA 来 大 规模 地 确定 基因 的 表达 ， 使 研究 者 可 以 
跟 上 基因 组 计划 测序 结果 (包括 公共 的 和 私人 公司 的 文库 和 数据 
HE) 的 步伐 . DNA 序列 可 以 用 来 产生 一 些 短 序列 , 这 些 短 序列 又 
可 以 用 来 检测 mRNA 。 为 了 提高 寻找 较 好 的 药物 靶 分 子 的 效率 ， 
制药 公司 开发 了 微 阵列 技术 和 DNA 芯片 技术 ， 这 种 技术 可 以 在 
一 个 实验 中 扫描 成 百 上 千 种 基因 片段 .DNA 芯片 技术 由 加 利 福 尼 
亚 州 Santa Clara 的 Affymetrix 公司 (http: //www. affymetrix 
. com/) FÈ, DNA 芯片 技术 是 检测 组 织 中 基因 表达 分 布 和 表达 
序列 标签 表达 分 布 的 领先 技术 。 

PCR 对 于 生物 信息 学 ,尤其 是 对 于 基因 组 计划 的 重要 性 , 在 
于 它 可 以 在 序列 尚 无 任何 生物 学 信息 时 使 DNA 得 以 扩 增 。 这 意 
味 着 只 要 已 知 一 段 短 序列 (10-20 S$ BR RE I HE) 就 可 以 扩 增 编码 区 
或 非 编码 区 。 由 于 这 种 技术 是 在 非 细 胞 环境 下 利用 酶 控制 DNA 
的 扩 增 ， 所 以 对 于 极 少量 的 标本 也 非常 敏感 。 

五 、 发 展 中 的 测序 技术 
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人 类 基因 组 计划 的 一 个 主要 焦点 就 是 自动 测序 技术 的 发 展 。 
自动 测序 技术 可 以 在 一 天 内 准确 地 测定 出 10 万 个 碱 基 ,检测 每 个 
碱 基 的 成 本 平均 少 于 50 美 分 。 包 括 测序 和 检测 技术 发 展 在 内 的 一 
些 特 别 的 目标 , 要 求 这 项 技术 更 快 、 更 敏感 、 更 准确 和 更 经 济 。 现 
在 ， 许 多 测序 新 技术 已 被 开发 出 来 ， 最 有 前 景 的 一 种 将 会 被 开发 
并 广泛 地 应 用 。 第 二 代 的 测序 技术 将 会 使 测序 的 速度 和 准确 率 提 
高 10 倍 , 同时 降低 检测 的 费用 。 一 些 重要 的 疾病 基因 可 以 用 高 电 
压 毛 细 管 技术 或 超 游 电泳 技术 来 测序 ， 以 增加 片段 的 分 离 率 。 应 
用 共振 离子 质谱 的 方法 可 以 检测 稳定 的 同位 素 标记 。 第 三 代 无 胶 
测序 技术 的 目标 是 提高 几 个 数量 级 的 测序 效率 ， 并 应 用 于 大 部 分 
人 类 基因 组 测序 的 工作 中 。 这 些 技术 包括 增强 每 个 标记 大 基 的 荧 
光 检 测 ， 利 用 扫描 仪 或 原子 显微镜 来 直接 阅读 DNA 条 带 中 的 碱 
基 序 列 。 DNA 序列 的 增强 质谱 分 析 , 可 利用 已 知 基因 的 短片 段 来 
杂交 测序 。 大 规模 的 测序 计划 将 为 促进 当前 技术 的 进步 提供 机 会 ， 
也 使 互相 竞争 的 研究 人 员 面 临 更 大 的 挑战 。 

荧光 标记 DNA 片段 大 大 地 加 快 了 应 用 Sanger 双 脱 氧 链 末 
端 终止 法 测序 的 速度 。 这 种 方法 是 利用 了 酶 能 够 促进 DNA 合成 
的 能 力 。 通 过 加 入 可 以 终止 延长 过 程 的 核 背 酸 底 物 ， 产 生 不 同 长 
度 的 DNA 片段 ， 细 致 地 分 离 这 些 长 度 只 有 一 个 核 苷 酸 差别 的 
DNA 片段 ,我 们 就 可 以 读 出 克隆 DNA 的 全 部 序列 。 

另外 ，Maxam-Gilbert 方法 是 利用 酶 去 降解 DNA 克隆 的 特 
殊 位 置 的 碱 基 ， 从 而 生成 不 同 长 度 片段 的 混合 物 。 然 后 利用 凝 胶 
电泳 来 分 离 这 些 长 度 只 有 一 个 碱 基 差 别 的 片段 。 

六 、 监 测 测序 进展 

许多 网 络 站 点 包含 了 各 种 基因 组 计划 和 数据 库 的 信息 ， 并 且 
有 超级 链接 ， 它 们 都 包含 了 相对 完整 的 特殊 软件 。 但 所 应 用 的 数 
据 库 仍 需要 科学 家 来 验证 其 数据 库 的 数量 和 及 时 性 。 能 较 好 地 监 
测 人 DNA 克隆 测序 进展 的 例证 是 Sanger 测序 中 心 的 站 点 
(www. sanger. ac. uk/HGP/stats. shtml) 。 该 站 点 也 提供 了 FTP 
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站 点 的 超级 链接 , 可 以 显示 一 个 克隆 或 序列 的 FASTA 序列 格式 ， 
同时 还 包含 了 该 序列 的 摘要 〈 可 以 确定 该 序列 是 否 就 是 要 研究 的 
蛋白 或 基因 ， 是 否 与 其 他 物种 同 源 ) 。 

监测 测序 进程 是 一 个 有 趣 的 活动 。 大 量 的 序列 数据 极 快 地 加 
人 到 数据 库 中 的 速度 是 惊人 的 。“ 进 程 统计 (Progress Statistics)” 
(http://www. sanger. ac. uk/Info/Statistics/) 可 以 在 网 上 得 到 ， 
其 中 显示 了 英国 医学 研究 理事 会 (British Medical Research 
Council) Sanger 测序 中 心 完成 的 和 未 完成 的 核 苷 酸 序列 。 未 完成 
的 克隆 提供 了 不 完整 序列 的 更 新 信息 。 这 使 得 我 们 可 以 快速 地 得 
到 感 兴趣 的 新 基因 。 这 些 序列 信息 在 应 用 时 必须 小 心 ， 因 为 其 中 
可 能 有 一 定 的 错误 ， 应 当 将 其 看 作 是 未 发 表 的 序列 。 在 这 里 要 注 
意 的 是 , 这 些 克 隆信 息 只 是 指 Sanger 中 心 的 克隆 序列 ， 并 不 代表 
任何 其 他 物种 的 全 部 序列 数量 。 完 成 的 克隆 可 以 经 注释 后 提交 到 
GenBank, EMBL #1 DDBJ (日 本 DNA 数据 库 ), 未 完成 的 数据 则 
不 行 。 

一 般 地 ， 由 于 人 们 只 研究 自己 感 兴趣 的 课题 。 所 以 ， 对 互联 
网 上 的 信息 ， 不 同 的 人 取舍 不 同 。 其 他 各 个 组 织 建立 的 站 点 与 三 
个 主要 的 公共 数据 库 NCBI, EBI 和 NIGJ (National Institutes of 
Genetics in Japan, http://www. nig. ac. jp/home. html) 不 同 , 他 
们 只 概括 地 反映 了 在 他 们 工作 范围 以 内 的 信息 。 有 些 人 集中 研究 
特殊 物种 的 单个 染色 体 ， 有 些 则 对 全 部 染色 体 的 作 图 和 资源 开发 
感 兴趣 ， 有 些 人 集中 在 自动 化 数据 处 理 和 分 析 ; 还 有 些 人 对 开发 
新 软件 感 兴趣 ， 如 用 于 分 析 序 列 、 比 较 基因 组 、 研 究 基因 的 结构 
和 表达 、 确 认 多 态 性 和 研究 与 功能 相关 的 染色 质 结构 等 方面 的 软 
件 。 所 有 这 些 研究 加 起 来 将 加 深 我 们 对 基因 组 生物 学 功能 的 理解 。 


第 二 节 DNA 序列 分 析 的 计算 机 工具 


在 生命 科学 中 ， 计 算 机 发 挥 作用 的 经 典 例证 是 测序 、 序 列 分 
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析 比 较 、 追 溯 进 化 和 突变 、 为 药物 设计 发 现 序列 相似 性 、 预 测 蛋 
白质 功能 、 预 测 基因 在 细胞 机 制 和 疾病 发 生 中 的 作用 。 

集中 式 数 据 库 (centralized database) 的 用 途 不 仅 使 科学 家 们 
知道 彼此 克隆 研究 的 结果 ， 而 且 可 以 作为 他 们 比较 遗传 学 研究 的 
基础 。 没 有 不 同 物种 间 不 同 蛋 白质 的 DNA 序列 关系 信息 , 就 不 可 
能 理解 进化 。 生 物 信息 学 的 工作 ， 总 的 来 说 ， 是 处 理 序列 数据 库 
中 的 文献 和 生物 学 注释 、 支 持 利用 软件 进行 序列 排列 、 确 认 基 因 、 
将 DNA 序列 翻译 成 氨基 酸 序列 .查找 同 源 序 列 进化 相关 序列 ) 。 
这 也 就 是 收集 、 储 存 、 组 织 和 注释 原始 序列 ， 构 建 二 级 和 三 级 数 
据 库 。 

十 五 年 前 ， 研 究 人 员 通 过 电话 给 对 方 读 DNA 或 氨基 酸 序列 
是 很 常见 的 事情 。 这 样 就 导致 了 一 个 人 为 的 “突变 率 ”， 估 计 这 个 
“突变 率 ” 远 远 超过 了 在 自然 状态 下 DNA 复制 和 转录 过 程 中 基因 
的 突变 率 。 而 今天 ， 从 GenBank 和 SWISS-PROT 数据 库 中 下 载 
一 个 文件 非常 简便 快捷 ， 而 且 几 乎 可 以 避免 此 类 错误 的 发 生 。 

一 、 数 据 库 数据 提交 

集中 式 数据 库 中 序列 信息 的 主要 来 源 是 科学 家 本 身 。 现 在 
Internet 的 发 展 使 提交 信息 到 NCBI、EBI 和 DDBJ 的 过 程 非常 简 
单 。BankIt (在 线 序列 数据 提交 工具 ) sk Sequin. (个 人 使 用 软件 ) 
Hi NCBI 提供 , 用 于 向 GenBank 的 工作 人 员 提 交 序 列 信息 和 生物 
学 注释 。 由 GenBank 的 科学 家 给 予 每 个 信息 附加 序列 号 
(accession numbers)， 并 很 快 公布 在 公共 数据 库 中 〈 通 常 在 48 小 
BIA). GenBank, EBI 和 DDB) 每 天 互相 交换 新 提交 的 数据 以 保 
证 每 位 科学 工作 者 投 送 的 信息 是 非 宛 余 性 的 〈 指 序列 只 投 送 一 
次 )。 

序列 作者 可 以 更 新 他 们 的 原始 信息 。 在 正常 情况 下 ， 科 学 家 
们 各 自发 现 的 基因 只 有 一 个 序列 和 一 些 相关 生物 学 信息 。 而 对 基 
因 组 计划 来 说 , 来 源 于 ESTs (expressed sequence tags, 表达 序列 
标签 )、STSs (Sequence tagged sites， 序 列 标签 位 点 ) 和 GSSs 
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(genome survey sequences， 基 因 组 检测 序列 ) 的 序列 信息 的 提交 
需要 特殊 过 程 ， 这 些 序列 与 传统 的 功能 基因 和 蛋白 序列 不 同 ， 他 
们 相对 较 短 而 数量 巨大 。 

ESTs 是 长 为 300-500bp 的 短 序 列 , 它们 代表 表达 基因 , 通过 
提取 组 织 或 细胞 的 mRNA 然后 经 过 反 转 录 获 得 。 除 它们 正确 的 序 
列 外 ,这 些 短 的 序列 标签 对 于 在 染色 体 上 定位 基因 很 有 帮助 .EST 
序列 的 提交 通常 包括 序列 和 作 图 信息 ， 通 常 这 些 信 息 一 次 以 十 个 
到 上 千 个 的 批量 提交 ， 在 引证 信息 、 提 交 数 据 和 文库 信息 上 有 宛 
余 性 。GenBank 在 线 提供 了 提交 序列 所 需要 的 信息 。 

STSs 5 ESTs 在 长 度 上 相似 ， 并且 每 次 提交 的 数量 也 相似 。 
它们 不 代表 基因 表达 的 情况 ,但 是 用 PCR 确认 基因 组 时 它们 是 单 
一 的 标志 物 。 尽 管 ESTs 是 公共 数据 库 中 数量 增长 最 快 的 一 个 子 
数据 库 , 但 由 于 基因 组 中 大 部 分 序列 为 非 编码 区 , STSs 将 会 在 数 
量 上 超过 ESTs, 

由 于 基因 组 序列 对 科学 机 构 有 潜在 的 用 途 ，NCBI 每 天 都 处 
理 提交 的 基因 组 序列 信息 。 其 中 包括 基因 组 中 心 、 克 隆 名 称 、 序 
列 号 等 , 基因 组 序列 也 可 以 在 未 完成 之 前 直接 提交 。NCBI 将 高 通 
量 基因 组 (High Throughput Genomic, HTG) 序列 分 为 三 期 : 
1) RUM, RHF; 2 未 完成 ,已 排序 ，3) 高 质量 的 已 完成 的 
序列 ， 不 包含 任何 序列 间隙 。 由 于 高 通 量 测序 和 提交 步伐 的 不 断 
Mk, 确认 其 中 的 错误 是 很 重要 的 环节 。 

为 了 促进 这 个 过 程 ，NCBI 建立 了 流水 线 式 提交 程序 和 序列 
公布 的 最 后 期 限 ， 以 保证 能 够 快速 和 无 错误 地 将 新 序列 公布 在 它 
ff ENTREZ 系统 。 没 有 一 定 的 速度 和 准确 性 , 任何 数据 分 析 都 很 
困难 。 由 于 许多 生物 信息 用 于 预测 〈 确 认 新 基因 、 新 功能 、 药 物 
设计 、 预测 结构 和 进化 树 关 系 分 析 ), 错误 会 很 快 地 随 电 子 媒 介 传 
播 , 序列 水 平 的 错误 会 导致 解释 和 结论 的 错误 .NCBI 最 关心 的 是 
对 储存 信息 的 错误 注解 。 为 了 解决 这 个 问题 ， 受 过 专门 训练 的 科 
学 家 必须 整理 数据 库 并 纠正 其 中 的 任何 错误 。 另外， 错误 注解 的 


po eT 


Se ”基因 组 分 析 “121 


传播 也 降低 了 比较 生物 学 数据 的 可 靠 性 。 
尽管 GenBank 的 序列 主要 依赖 各 位 生命 科学 家 和 高 通 量 测 
序 中 心 (如 Sanger 测序 中 心 、TIGR 等 ) 的 直接 提交 , 但 NCBI 的 


工作 人 员 还 需 在 生物 医学 杂志 中 查找 发 表 的 序列 和 结构 信息 用 于 
对 序列 的 注解 ， 正 如 GenBank 96.0 公布 版 本 所 写 : 


GenBank 包含 由 作者 直接 提交 的 序列 ， 也 包括 NLM (National Library 
of Medicine, 美国 国立 医学 图 书馆 ,http://www. nlm. nih. gov/) 通过 浏览 
生物 医学 文献 制作 的 部 分 材料 。NLM 每 年 要 从 3400 种 杂志 的 325.000 多 篇 
文章 中 查找 序列 数据 , 这 些 数据 列 在 植物 学 和 兽医 学 杂志 的 附录 中 , 这 些 杂 
志 与 国立 农业 图 书馆 (National Agricultural Library) 有 合作 。GenBank 是 
美国 、 欧洲 和 日 本 的 三 个 国际 协作 数据 库 的 组 成 部 分 ; 欧洲 的 协作 数据 库 是 
欧洲 分 子 生物 学 实验 室 (European Molecular Biology Laboratory, EMBL), 
位 于 英国 Hinxton Hall; 另外 还 有 日 本 DNA 数据 库 (DNA Database of 
Japan, DDBJ), 位 于 日 本 的 Mishima. 协作 数据 库 中 的 序列 数据 也 与 基因 组 
序列 数据 库 (Genome Sequence Database, GSDB) 有 合作 , 基因 组 序列 数据 
库 位 于 新 墨西哥 州 的 Santa Fe. 专 利 序列 由 美国 专利 和 商标 局 安排 与 三 个 协 
作 数 据 库 合作 , 并 与 其 他 国际 专利 局 通过 国际 数据 库 合 作 。 数 据 库 转 换 为 各 
种 输出 形式 ,包括 普通 文本 和 ASN.1 版 本 ，ASN. 1 形式 的 数据 包括 在 
Entrez 中 , 序列 的 CD-ROM 也 可 以 得 到 。 通过 匿名 FTP 可 以 得 到 普通 文本 


(ftp://ncbi. nlm. nih. gov/ genbank /release. notes/gb96. release. notes) 。 


为 了 理解 今天 庞大 的 计算 机 网 络 和 遗传 学 数据 的 巨大 流量 ， 
我 们 必须 回顾 分 子 生物 学 处 在 婴儿 期 的 40 年 前 。 那 时 , 许多 今天 
拥有 的 技术 还 没有 出 现 ， 遗 传 密码 也 刚刚 发 现 ， 随 后 不 久 发 现 了 
限制 性 内 切 酶 (切割 DNA 的 工具 )。 在 当时 ， 蛋 白质 的 测序 速度 
比 核酸 的 测序 速度 快 。 但 生物 化 学 家 也 需 花 几 个 月 到 几 年 时 间 才 
能 通过 顺序 降解 大 量 的 纯化 蛋白 质 ， 来 搞 清楚 一 个 蛋白 质 的 氨基 
酸 序列 。 生 物化 学 的 先驱 如 Margaret Dayhoff, 她 是 最 早 将 氨基 酸 
序列 比较 用 于 进化 分 析 的 生物 学 家 之 一 。 她 首先 认识 到 建立 公共 
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序列 数据 库 的 必要 性 ， 她 的 观点 对 于 发 展 基于 计算 机 基础 上 的 分 
析 工 具 是 十 分 重要 的 。 在 Margaret Dayhoff 的 努力 下 , 60 年 代 早 
期 建立 了 第 一 个 蛋白 质 序列 数据 库 。 

今天 ,氨基 酸 序列 可 以 按 常 规 通 过 分 子 生物 学 的 方法 得 到 。 也 
就 是 说 ,首先 基因 测序 ,然后 应 用 适当 的 密码 子规 则 从 DNA. 序列 
推断 出 氨基 酸 的 序列 。 

然而 ,氨基酸 测序 目前 仍 用 于 分 析 短 肽 。 这 一 方法 的 作用 最 
近 被 越 来 越 热门 的 蛋白 质 组 学 夸大 了 。 从 蛋白 质 表达 谱 获得 的 肽 
段 经 过 微 测 序 确定 其 分 子 量 和 电荷 SHAD, 在 这 些 蛋 白质 提取 
物 中 获得 的 短 氨基 酸 序列 的 基础 上 ， 可 以 很 快 地 分 析 蛋 白质 表达 
谱 和 翻译 后 的 修饰 情况 。 

直到 1980 年 ,DNA 序列 数据 库 才 开始 建立 。 由 于 科学 团体 之 
间 需 要 快速 和 可 靠 的 信息 传递 ， 国 际 互联 网 应 运 而 生 。 在 应 用 网 
络 浏览 器 之 前 ， 从 远 端 计算 机 下 载 文件 的 标准 方法 是 通过 文件 传 
输 协议 一 FTP 和 Kermit， 即 使 用 公共 软件 包 。 这 些 方法 目前 仍然 
应 用 于 超级 计算 机 之 间 的 通讯 和 文件 的 上 传 下 载 ( 见 Pittsburgh 
超级 计算 机 中 心 ; http://www. psc.edu)。 在 1989 年 以 前 ， 最 通 
用 的 序列 提交 和 查询 形式 是 普通 邮件 (硬盘 拷贝 、 软 盘 和 磁带 )、 
电 传 以 及 拨号 在 线 网 络 。 人 类 基因 组 作 图 文库 (HGML, 冷泉 港 
实验 室 ) 用 手工 更 新 它们 的 数据 库 注解 ，GenBank 的 科学 家 们 则 
手工 扫描 各 种 杂志 以 获得 已 发 表 的 序列 。 在 那 一 时 期 只 有 50% 
的 记录 是 由 相关 领域 的 科学 家 直接 提交 的 , 而 其 中 的 70% 是 以 计 
算 机 可 读 的 形式 投递 到 以 UNIX 为 基础 的 SUN 工作 站 。 当 然 ， 
UNIX 至 今 还 没有 被 取代 。 网 络 浏览 器 是 适用 于 Windows 和 
Apple 操作 系统 的 计算 机 程序 , 具有 友好 的 界面 , 把 PC 机 转换 为 
类 似 在 UNIX 操作 系统 运行 下 的 超级 计算 机 和 工作 站 的 终端 。 

虽然 超级 计算 机 有 花费 高 和 访问 限制 等 缺点 ， 但 有 时 在 局 部 
站 点 中 使 用 许多 独立 的 软件 程序 或 可 以 下 载 的 数据 文件 时 有 很 大 
的 优势 。 许多 生物 技术 公司 在 局 部 服务 器 上 建立 镜 象 站 点 将 公共 
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数据 库 和 专 有 数据 库 结合 起 来 , 以 利于 数据 储存 。 这样 做 的 结果 ， 
就 将 他 们 正在 进行 的 生物 信息 学 研究 用 于 商业 运作 。 对 于 个 人 用 
户 , 通过 网 络 浏览 器 在 远 端 计算 机 上 进行 交互 式 分 析 ， 并 应 用 e- 
mail 接收 结果 是 生物 信息 学 应 用 最 普通 的 形式 。 个 人 计算 机 的 计 
算 能 力 和 速度 的 提高 使 独立 程序 的 应 用 更 为 可 行 ， 并 且 减 少 了 对 
大 型 工作 站 和 远 端 服务 器 的 依赖 。 


在 1983 年 到 1988 年 这 5 年 期 间 ， 从 DNA 序列 的 发 表 提 交 到 数据 库 中 
可 以 获得 的 平均 周期 从 1 年 下 降 到 5 个 月 。1988 年 是 人 类 基因 组 计划 启动 
的 标志 年 ， 那 时 在 GenBank、EMBL 和 日 本 的 序列 数据 库 中 包含 了 1200 多 
种 生物 的 序列 数据 。 而 今天 网 络 站 点 的 记录 和 查询 形式 可 以 提供 即时 的 服 
务 。 十 年 以 前 , 订阅 GenBank 数据 的 用 户 , 每 3 个 月 可 以 收 到 记录 数据 的 磁 
带 ; 当时 CD-ROM 的 技术 刚刚 开始 应 用 ,但 是 花费 昂贵 ， 限 制 了 其 广泛 的 
应 用 。 EMBL 数据 库 的 一 年 磁带 订阅 费用 是 200 美元 , 而 美国 非 商 业 用 户 的 
CD-ROM 订阅 费用 是 400 美元 (Methods Enzymology, 1990, vol. 183, p. 
29). 


二 、 数 据 查询 

序列 分 析 包括 4 个 主要 的 生物 学 相关 主题 : 1) 比较 基因 序列 
以 得 到 相似 性 信息 和 从 进化 树 分 析 中 确认 同 源 性 。2) 确认 基因 的 
基因 组 结构 , 包括 开放 读 框 、 外 显 子 - 内 含 子 分 布 和 调节 序列 。3) 
预测 蛋白 质 的 结构 。4) 基因 组 作 图 , 染色 体 上 基因 的 线性 排列 和 
在 代谢 途径 中 的 作用 评估 。 

当前 可 以 获得 的 DNA 和 蛋白 质 序列 的 数量 非常 大 ， 查 询 信 
息 可 以 形容 为 “挖掘 生物 学 数据 矿藏 ”。 搜索 引擎 执行 的 两 个 基本 
任务 是 : 对 储存 信息 检索 的 简单 字符 串 搜索 (如 : GenBank HK 
酸 蛋 白 查 询 ; PubMed 的 MEDLINE, 三 维 结构 、 基因组 和 分 类 数 
据 库 查询 等 )， 检 索 、 排 列 和 比较 序列 或 结构 的 相似 性 查询 〈 如 
BLAST) 。 

序列 分 析 的 第 一 步 包 括 以 一 定 的 标准 来 检索 序列 〈 其 中 之 一 
是 查找 序列 的 相似 性 和 一 致 性 ), 这 可 以 通过 诸如 BLAST 的 搜索 
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工具 完成 。 如果 没 有 已 知 序列 , NCBI 的 搜索 引擎 吕 以 在 核酸 或 蛋 
白水 平 通 过 相应 的 蛋白 名 称 、 研 究 目的 蛋白 的 作者 姓名 或 序列 号 
扫描 数据 库 。 这 些 搜 索 可 以 在 选择 的 数据 库 中 检索 到 数据 文件 中 
包含 检索 词 的 相应 记录 ,包括 记 录 的 编号 。 

例如 ， 如 果 一 个 研究 人 员 拟 寻找 第 四 军医 大 学 病理 学 教研 室 
发 现 的 名 为 “dif14” 的 基因 的 核 苍 酸 序列 , 在 Entrez 查询 站 点 的 
“search” 选 项 中 选择 “GenBank” (http://www. ncbi. nim. nih. 
gov/Entrez/), 他 可 以 简单 地 输入 关键 词 “dif14”, Aa; "Go", 就 
可 以 找到 相关 的 记录 。 


到 
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图 4-1 Entrez 的 核酸 查询 ， 查 找 “difl14” 的 结果 (2001 ^F 12 AD 


查询 结果 出 现 的 窗口 显示 有 4 个 相关 文件 (图 4-1)， 可 以 通 
过 点 击 条 目 链接 来 显示 每 个 查询 结果 。 感 兴趣 的 研究 者 可 以 得 到 
其 序列 信息 (图 4-2, FASTA 格式 )、 注解 信息 (GenBank 报告 )、 
图 形 显示 (Applet Java 图 形 ) 以 及 相关 和 蛋白 或 核酸 序列 ， 如 果 该 
序列 有 相关 文献 ， 还 会 显示 文献 链接 (MEDLINE)。 图 4-1 中 可 
以 看 到 最 后 一 个 记录 的 accession number 是 AF348513， 指 dif14 
基因 的 短片 段 形式 ,这 可 能 是 该 基因 mRNA 在 不 同 剪 切 方式 下 的 
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Nucleotide 


Ge] Clase 


i i : i z m J Fa 


图 4-2 序列 号 为 AF402318 的 dif14 查询 结果 (FASTA 格式 ) 


产物 之 一 。 而 AF402318 条 目 是 dif14 的 长 片段 形式 。 该 基因 预测 
的 开放 读 框 编码 一 个 有 490 个 氨基 酸 的 蛋白 质 ， 经 蛋白 质 跨 膜 区 
预测 软件 分 析 ， 它 可 能 是 人 类 的 一 个 九 次 跨 膜 蛋白 质 。 选 择 显 示 
“FASTA" 链 接 可 以 显示 该 序列 的 FASTA 格式 .查询 结 果 中 包含 
序列 号 为 NT 007741 的 条 目 ， 它 是 7? 号 染色 体 的 工作 框架 图 
(working draft) 序列 之 一 。 由 于 difl4 的 序列 定位 于 7 号 染色 体 ， 
并 且 位 于 NT 007741 条 目 序列 之 中 ， 所 以 查询 结果 中 也 包含 了 
该 条 目 。 

选择 “protein” 链 接 可 以 显示 人 dif14 长 片段 蛋白 质 的 记录 
(图 4-3,accession number AAK94061), FASTA 链接 显示 该 蛋白 
质 的 氨基 酸 序列 。 

氨基 酸 序列 的 FASTA 格式 可 以 用 于 BLAST (BLASTp 
search) 同 源 查询 非 元 余 (non-redundant) 数据 库 (GenBank CDS 
translation + PDB 十 SWISS-PROT + Spupdate + PIR + 
PRF, 3t 855. 480 TIFF, 269, 408, 271 个 字母 ), 以 查找 相关 
序列 。 这 种 BLAST 查询 可 以 通过 在 FASTA 格式 窗口 选择 并 拷 
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图 4-3 Entrez 蛋白 质 查 询 dif14 的 结果 (AAK94061 是 序列 号 为 
AF402318 核酸 预测 的 编码 蛋白 ) 

贝 氨基 酸 序列 , 粘贴 到 Standard protein-protein BLAST [blastp] 
查询 窗口 ， 选 择 blastp (由 于 这 是 一 个 蛋白 质 序列 ) 来 完成 。 

查询 结果 有 26 个 ， 其 中 包括 小 鼠 肢 体 发 育 相 关 和 蛋白 质 
LMBR1、 人 lipocalin-1 的 膜 受 体 蛋 白质 、 鸡 Saphl 蛋白 质 、 线虫 
的 R05D3. 2. p 蛋白 质 、 人 脑 my034 蛋白 质 和 一 些 未 知 生物 学 意 
义 或 未 命名 的 蛋白 质 (2002 年 1 月 24 日 查询 结果 ) 。 

得 到 的 蛋白 质 相似 性 水 平 也 提示 了 物种 和 分 类 间 可 能 的 生物 
学 关系 。 序 列 的 同 源 性 高 低 由 上 值 来 衡量 ,E 值 表示 随机 命中 的 
几率 ,如 果 下 值 是 0 或 接近 0( 如 BLAST 查询 结果 中 AF402318 
为 0) 表 明 是 不 可 能 随机 碰 到 的 ,也 就 是 说 同 源 性 非常 高 。 同 源 性 
序列 通常 是 在 一 定 有 意义 的 界 值 下 显示 的 ,通常 来 说 如 果 查 询 同 
源 序列 将 下 值 设 定 为 0.1 是 比较 合理 的 ,E 值 大 于 设 定 界 值 的 序 
列表 明 与 查询 序列 没有 关系 。 但 即使 两 个 基因 的 DNA 序列 没有 
多 大 的 同 源 性 ,他 们 的 氨基 酸 序列 和 蛋白 质 结构 水 平 也 有 同 源 的 
可 能 。 随 着 得 到 的 高 解析 度 蛋 白质 结构 数量 的 增加 ,可 以 肯定 的 是 
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相关 蛋白质 的 超 二 级 结构 和 三 维 结构 相似 性 比 其 序列 的 相似 性 更 
高 ,原因 是 由 于 将 氨基 酸 序列 与 相应 的 结构 基 序 相 结合 起 来 了 。 

三 、 序 列 排列 

研究 一 个 基因 的 功能 ， 应 包括 明确 它 在 不 同人 群 和 物种 之 间 
的 变异 情况 。 序列 排列 ， 即 序列 碱 基 配对 比较 ， 是 搞 清 新 测序 基 
因 的 性 质 或 确认 其 是 否 为 新 基因 的 第 一 步 。 我 们 可 以 通过 
"BLAST 2 sequences” 工 具 来 比较 两 个 序列 .这 是 BLAST 算法 的 
特殊 版 本 ,用 它 可 以 从 数据 库 中 查找 和 检索 相似 的 序列 .BLAST2 
算法 允许 核 昔 酸 (BLASTn) 或 氨基 酸 (BLASTp) 序列 比较 , 还 
可 以 选择 几 种 不 同 的 基质 算法 ， 序 列 可 以 通过 accession number 
或 FASTA 格式 输入 。 

对 于 多 序列 排列 ， 可 以 应 用 许多 生物 信息 学 站 点 提供 的 
ClustalW 程序 。 欧 洲 生物 信息 学 研究 所 《〈The European 
Bioinformatics Institute，EBI) 即 可 提供 。ClustalW 交互 式 站 点 
可 以 在 http://www. ebi. ac. uk/ebi home. html 主页 的 Services 
链接 的 “On-line applications" PRAJ. 该 站 点 列 出 了 由 EBI 提供 
的 所 有 链接 ， 也 包括 了 非 EBI 服务 器 。 该 程序 允许 投 送 几 个 序列 
并 且 可 以 选择 不 同 的 输出 设置 ， 结 果 包 括 碱 基 配 对 排列 得 到 的 相 
同 序列 ， 以 及 相似 性 从 高 到 低 序列 对 的 顺序 。 输 出 结果 显示 一 个 
图 形 界面 一 进化 树 ， 制作 进化 树 的 程序 可 以 下 载 为 个 人 用 版 本 ， 
ClustalW 结果 输出 文件 可 以 存在 本 地 硬盘 以 用 于 将 来 参考 、 分 析 
和 发 表 。 

四 、 基 因 序列 的 生物 学 注释 

NCBI 网 站 是 一 个 关于 生物 学 知识 数据 库 的 网 站 。 要 想 认 识 
一 个 基因 或 其 序列 ， 首 先 要 清楚 它 的 来 龙 去 脉 。 所 谓 一 个 基因 的 
来 龙 去 脉 是 指 包括 其 功能 、 结 构 、 细 胞 内 染色体 ) 定位 ， 以 及 
其 产物 一 一 RNA 翻译 的 蛋白 质 的 结构 功能 等 全 部 生物 学 信息 , 另 
外 还 包括 其 分 类 信息 ， 等 等 。 

以 下 是 与 DNA 序列 相关 的 生物 学 重要 注释 的 一 览 表 : 


“map ese 
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* 数据 库 中 的 相关 序列 

* 结构 预测 /与 x 线 衍射 结构 的 比较 

* 功能 未 知 时 ， 开 放 读 框 ORF 

* 结构 域 部 分 

+ 跨 膜 部 分 

+ 信号 肽 序列 

e 糖 基 化 位 点 、 磷 酸化 位 点 以 及 在 脂 质 中 的 锚 定 位 点 

+ 选择 性 的 术语 命名 

“诸如 调节 序列 的 遗传 学 信息 

E 

+ 2 维 凝 胶 电 泳 、 等 电 点 (电荷 )、 分 子 量 

* 参考 文献 

启动 基因 组 计划 的 原动力 ， 来 自 于 人 们 对 代表 着 或 包含 着 基 
因 的 DNA 序列 的 确认 需求 。 基 因 是 各 种 生命 体 基因 组 中 的 功能 
单位 ， 它 包括 调节 序列 和 位 于 启 始 密码 子 和 终止 密码 子 之 间 的 开 
放 读 框 。 开 放 读 框 决定 其 相应 蛋白 质 的 氨基 酸 序列 。 不 同 生物 之 
间 的 基因 结构 有 显著 的 差异 ， 而 且 存在 着 两 大 类 型 ， 即 拥有 连续 
开放 读 框 和 拥有 间断 开放 读 框 这 两 种 不 同 的 结构 外 显 子 和 内 含 
子 ; 所 有 外 显 子 共同 代表 开放 读 框 , 而 内 含 子 则 在 mRNA 水 平 被 
酶 切 掉 一 一 即 RNA 剪 切 ) 。 后 者 只 存在 于 高 级 的 生物 体内 〈 真 核 
生物 )， 在 细菌 与 原生 质 中 则 没有 。 

五 、 开 放 读 框 和 未 确认 读 框 

如 果 一 个 基因 已 经 测序 ， 但 没有 相应 蛋白 质 的 信息 ， 就 不 会 
有 相应 的 生物 学 功能 的 信息 .DNA 序列 是 在 基因 组 计划 中 获得 的 
最 原始 的 结果 。 这样， 就 必须 对 DNA 长 长 的 重要 序列 进行 分 析 ， 
以 期 找到 存在 着 的 基因 。 完 成 这 一 工作 ， 需 要 借助 软件 来 确认 起 
始 密 码 子 和 终止 密码 子 之 间 的 开放 读 框 (Open Reading Frames, 
ORFs) 或 未 确认 的 开放 读 框 (Unidentified Reading Frames, 
URFs). 


TATE Se 
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ORF 的 长 度 与 编码 蛋白 的 大 小 、 分 子 量 密切 相关 , FARK 
度 是 确认 ORF 的 有 用 指 征 。 在 真 核 生物 基因 中 , WTA (间隔 
着 外 显 子 和 内 含 子 的 位 点 ) 有 鲜明 的 特征 ， 它 在 确认 基因 时 提供 
了 辅助 的 作用 。 由 于 基因 是 一 个 功能 单位 ， 在 临近 起 始 密码 子 的 
位 点 存在 着 共同 序列 。 

许多 网 站 提供 了 可 以 分 析 一 个 DNA 序列 中 ORF 存在 与 否 
的 各 种 工具 ， 它 们 允许 对 蛋白 质 的 相关 氨基 酸 序列 及 可 能 的 结构 
特征 进行 预测 。 如 果 经 过 序列 排列 找到 了 相关 序列 ， 而 这 个 相关 
序列 中 包含 了 一 个 基因 的 序列 ， 这 个 结果 是 一 个 基因 可 能 有 生物 
学 功能 的 很 好 的 标志 。 


ORF finder 是 一 个 有 效 的 图 形 界 面 分 析 工具 ， 它 可 以 在 用 户 提供 的 序 
列 或 数据 库 的 序列 中 找到 大 小 不 同 的 所 有 开放 读 框 .这 个 工具 是 通过 使 用 标 
准 密码 子 或 其 它 一 些 特殊 物种 的 密码 子 , 来 确认 所 有 的 开放 读 框 的 , 推断 出 
的 氨基 酸 序 列 能 以 多 种 形式 保存 ; 而 且 , 它 可 通过 BLAST 服务 器 来 查询 序 
列 数 据 库 。 ORF finder 对 于 提交 完整 而 精确 的 序列 是 相当 有 用 的 , 这 里 还 包 
FET Sequin 这 个 序列 提交 软件 (摘自 http://www. ncbi. nlm. nih. gov/ 
gorí/gorf. html), 


为 了 保证 能 正确 地 预测 新 基因 ， 必 须 仔 细 地 选择 使 用 物种 的 
BT. NCBI 也 提供 了 一 个 密码 子 使 用 数据 库 (http://www. 
ncbi. nlm. nih. gov/ Taxonomy /taxonomyhome. html)。 这 个 数据 
库 包括 所 有 真 核 生 物 的 标准 密码 子 及 其 分 类 分 支 。 

ORF finder 搜寻 cDNA 序列 , 以 寻找 在 起 始 密码 子 和 终止 密 
码 子 之 间 适 当 的 伸展 序列 。 所 谓 “ 适 当 ” 是 指 一 个 基因 的 大 小 及 
蛋白 质 的 大 小 是 适当 的 〈 专 指 功能 未 知 的 蛋白 质 ), 或 可 以 通过 同 
源 序列 推断 出 来 。 在 后 者 的 情况 下 ，ORF finder 可 以 预测 新 基因 
编码 蛋白 的 功能 。 它 提供 了 确定 被 研究 的 cDNA 序列 是 否 包 含 基 
因 的 功能 位 点 的 方法 。ORF finder 对 于 筛选 细菌 基因 组 、cDNA 
文库 和 EST 数据 库 是 非常 有 用 的 ,但 它 不 能 分 析 真 核 生物 的 原始 
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序列 。 因而, 目的 基因 的 片段 , 即 外 显 子 , 首先 应 被 分 离 出 来 ， 然 
后 克隆 、 测 序 ， 放 在 一 起 组 成 重奏 序 列 。 重 得 序 列 可 以 包括 基因 
的 连续 编码 序列 。 

基因 是 染色 体 上 的 工作 单位 ， 包 括 ORF 片段 以 及 对 基因 表 
达 的 调节 非常 重要 的 非 编 码 区 。 真 核 生物 基因 结构 常常 是 很 复杂 
的 ， 含 有 重组 过 程 。 在 重组 过 程 中 ， 一 个 基因 可 以 各 种 复杂 的 方 
式 重 组 外 显 子 而 导致 生成 不 同 的 基因 产物 。 这 就 是 免疫 球 蛋 白 的 
高 可 变 区 结构 域 形 成 的 基础 。 在 DNA 片段 中 确认 基因 的 软件 可 
以 从 Bylor 大 学 医学 部 获得 (Gene Finder, http://dot. imgen. 
bem. tmc. edu :9331/gene-finder/gf. html) 。 


第 三 节 基因 组 分 析 


基因 组 分 析 可 以 确定 基因 在 染色 体 中 的 位 置 ， 并 提供 相关 信 
息 。 这 包括 : 与 其 他 基因 的 遗传 、 连 锁 ， 在 遗传 学 、 医 学 方面 的 
重要 性 ， 基 因 治 疗 ， 示 踪 常 染色 体 突变 及 X 染色 体 连 锁 疾病 等 。 

例如 : 酵母 蛋白 质 组 学 数据 库 (OPD) 将 DNA 序列 、 蛋 白质 
结构 和 功能 、 细 胞 内 定位 和 通路 以 及 细胞 周期 信息 与 一 个 连 贵 的 
数据 库 相 连 。 这 个 数据 库 又 与 相关 的 文献 信息 相连 ， 而 且 具 有 将 
数据 获得 权 售 与 公司 的 商业 目的 。 可 用 于 蛋白 质 组 学 与 基因 组 学 
的 比较 、 二 维 凝 胶 电泳 分 析 、 图 象 处 理 、 储 存 查询 以 及 特征 查询 
等 (Virage Inc. www. virage. com), 

一 、 基 因 组 的 组 织 

生物 信息 学 工具 和 数据 库 慢 慢 地 融 为 一 个 反映 有 机 体 复杂 性 
的 整 和 系统 。 随 着 一 个 个 小 生物 基因 组 计划 的 完成 ， 对 三 种 生物 
基因 组 (原核 生物 、 原 生 质 、 真 核 生 物 ) 的 不 同 点 的 理解 使 得 一 
个 有 机 体 的 组 成 及 功能 与 基因 组 组 织 的 关系 也 渐渐 清晰 了 。 真 核 
与 原核 生物 在 基因 组 结构 上 很 不 相同 。 编 码 区 与 非 编码 区 有 着 不 
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Working Drant Analysis Published 


ah, 


图 4-4 人 类 基因 组 资源 网 页 

同 的 出 现 频率 。 细 菌 基因 组 排列 紧密 并 有 很 少 的 非 编 码 区 DNA, 
真 核 生物 染色 体 通 常 非常 巨大 , 而 且 有 大 量 的 非 编码 DNA, 尤其 
是 植物 . 真 核 生物 和 原核 原生 质 的 基因 常 分 裂 为 不 连续 的 片段 , 称 
为 “外 显 子 ”。 

包含 生物 全 基因 组 的 特殊 数据 库 提供 基因 组 中 基因 相互 关 
系 、 空 间 位 置 相 邻 信息 和 共 调节 等 信息 : 例如 ， 在 一 些 菌 种 中 有 
额外 的 酶 催化 步 又， 而 在 其 他 菌 种 中 没有 。 发 现 这 一 现象 的 方法 
就 是 观察 是 否 这 些 特异 蛋白 属于 一 个 基因 簇 (这 个 结构 为 操纵 
子 ), 并 沿 着 微生物 的 基因 组 排列 在 一 起 , 就 象 氨基 酸 合成 的 整个 
路 径 的 酶 排列 接近 ， 并 且 以 协同 方式 调节 ,以免 每 个 酶 的 单独 控 
制 都 需要 一 个 通路 。 了 解 通路 的 存在 及 编码 通路 中 每 一 种 酶 的 基 
因 对 于 理解 突变 如 何 影响 细胞 生理 有 重要 意义 ， 通 路 中 一 个 环节 
的 酶 的 突变 影响 到 整个 途径 ， 因 为 它 组 成 一 个 表 型 。 原 核 和 真 核 
生物 全 基因 组 测序 过 程 无 疑 有 助 于 确定 机 体 基 因 组 结构 在 代谢 过 
程 中 的 生理 功能 及 其 重要 性 。 

尽管 基因 非常 重要 ， 因 为 它们 编码 了 细胞 内 全 部 蛋白 质 和 
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RNA, 但 这 些 结构 基因 只 是 组 成 基因 组 的 一 部 分 ,尤其 在 真 核 生 
物 中 (如 : 真菌 、 植 物 和 动物 )。 例如 ,估计 90% 以 上 的 人 类 基因 
组 为 非 编码 区 。 不 久 前 , 非 编码 基因 还 被 认 作 是 DNA 垃圾 , 这 反 
映 了 我 们 对 其 功能 的 理解 和 认识 的 不 足 。 经 研究 越 来 越 多 的 非 编 
码 DNA 对 蛋白 质 或 RNA (调节 性 、 结 构 性 和 酶 ) 合成 起 作用 , 并 
且 认 为 对 细胞 10% 的 编码 DNA 有 很 重要 的 意义 。 这 些 非 编码 
DNA 在 细胞 特异 基因 的 复制 和 表达 方面 是 很 重要 的 . 它 似 乎 包括 
2 1 即 与 基因 表达 和 复制 相关 的 蛋白 质 结合 位 点 的 短 序 
。 这 类 蛋白 质 是 生长 因子 和 激素 受 体 ， 这 些 蛋 白质 结合 部 位 对 

AE AEEA 在 细胞 的 分 化 、 形 态 发 育 及 胚胎 发 育 时 
期 起 了 很 重要 的 作用 。 

在 研究 进化 中 的 DNA 时 ,从 DNA 的 非 编码 区 得 到 的 启示 是 
很 巨大 的 。 因 为 突变 是 随机 事件 ， 染 色 体 的 非 编码 部 分 包含 了 大 
部 分 碱 基 位 置 的 变化 ， 并 且 为 染色 体 的 重组 和 这 种 隐 性 突变 的 积 
累 提供 了 “发 挥 的 场所 ”。 

多 态 性 标记 (用 于 DNA 指纹 技术 中 的 标记 ), 在 这 部 分 DNA 
中 可 以 应 用 。 对 于 不 同 个体 基 因 簇 的 遗传 学 研究 结果 反映 了 不 同 
个 体 之 间 核 苷 酸 序列 的 高 频 突 变 。 它 反映 了 被 DNA 限制 性 内 切 
酶 切 开 的 DNA 片段 上 序列 的 变化 (限制 性 片段 长 度 多 态 性 )。 这 
种 遗传 学 多 态 性 最 近 已 被 用 于 法 医学 的 实践 中 。 这 种 称 为 遗传 学 
“指纹 ” 产生 的 信息 对 于 某 个 个 体 来 说 , 是 几 十 亿 人 群 中 独一无二 
的 。PCR 成 功 地 应 用 于 身份 确认 ， 在 犯罪 现场 中 发 现 的 极 少量 血 
样 、 坏 死 皮肤 或 一 根 头发 都 足够 用 于 DNA 扩 增 分 析 。 

为 了 理解 生命 的 “蓝图 ”和 生命 本 身 间 的 关系 ， 我 们 需要 了 
解 基因 在 基因 组 中 的 相对 位 置信 息 以 及 蛋白 质 序列 和 结构 之 闻 的 
关系 。 由 于 蛋白 质 不 是 孤立 的 实体 ， 多 种 蛋白 质 之 间 的 相互 作用 
是 细胞 活性 的 基础 ， 单 个 基因 的 选择 压力 可 能 与 几 个 有 相互 作用 
的 蛋白 质 的 基因 有 关 。 这 使 得 序列 一 结构 和 结构 一 功能 之 间 的 关 
系 变 得 相当 复杂 ， 多 个 蛋白 质 的 相互 作用 更 加 复杂 。 现 在 ， 有 诸 


OL a t etr t Ran 


NOP STD nme 


第 四 章 ”基因 组 分 析 + 133+ 


如 基因 组 学 和 蛋白 质 组 学 的 新 技术 ， 这 些 技术 可 同时 确定 多 种 
RNA 或 蛋白 质 表 达 水 平 , 是 研究 细胞 内 复杂 的 分 子 间 相互 作用 的 
起 点 。 

我 们 如 何 衡量 遗传 特征 的 独立 性 和 相互 依赖 性 ? 这 可 以 参考 
Gregor Mendel 以 及 他 的 有 关 吏 豆 颜色 和 硬度 的 分 离 遗 传 研究 实 
验 。 在 分 子 水 平 ， 两 个 独立 表 型 是 由 位 于 染色 体 上 的 基因 来 编码 
Wh, 这些 基因 在 染色 体 上 的 位 置 是 有 一 定 距离 的 。 如 果 两 个 基因 
位 于 同一 条 染色 体 上 ， 他 们 通常 一 起 遗传 ， 也 就 是 说 他 们 不 会 分 
离 。 但 这 并 不 是 一 定 的， 因为 同一 条 染色 体 上 的 基因 间距 离 是 极 
重要 的 。 若 两 个 基因 间距 较 大 ， 其 分 离 的 可 能 性 亦 增高 。 

组 蛋白 〈histone) 的 分 子 进 化 研究 证 明了 基因 组 结构 与 染色 
体 稳定 的 重要 性 一 一 组 蛋白 负责 组 装 和 储存 DNA ,形成 染色 体 的 
高 密度 形式 ,在 细胞 分 裂 期 间 , 染色 质 浓缩 成 熟知 的 双 辟 结构 , 即 
一 对 染色 体 。 但 在 细胞 正常 休眠 状态 下 ， 染 色 体 常 松 散 分 布 ， 并 
且 可 在 RNA 聚合 酶 的 作用 下 转录 成 合成 蛋白 质 的 RNA 和 其 他 
转录 因子 。 这 就 是 基因 调节 〈 包 括 转录 和 表达 ) 的 本 质 ， 这 是 一 
个 在 DNA. 链 和 结构 蛋白 (或 组 蛋白 )、 核酸 合成 蛋白 (聚合 酶 ) 和 
DNA 结合 蛋白 (或 转录 因子 ) 之 间 的 动态 平衡 。 这 个 动态 平衡 控 
制 聚合 酶 与 DNA 分 子 的 结合 。 

由 于 基因 可 以 编码 蛋白 质 ,而 蛋白 质 控 制 着 细胞 生命 中 的 每 
个 过 程 。 所 以 基因 的 转录 对 机 体 活 性 的 重要 性 是 显而易见 的 。 尽 
管 染色 体 结构 的 重要 性 目前 还 不 是 很 清楚 ,但 有 迹象 表明 改变 染 
色 质 的 结构 对 细胞 是 致命 的 。 对 组 蛋白 氨基 酸 序列 的 分 析 为 此 提 
供 了 一 个 证 据 。 在 真 核 生物 中 的 各 物种 组 蛋白 高 度 保守 ,它们 是 动 
植物 、 真 菌 关键 的 一 个 遗传 特征 ,它们 保守 的 序列 也 提示 着 所 有 现 
代 真 核 生物 在 进化 上 都 来 自 一 个 祖先 细胞 或 物种 .事实 上 ,组 蛋白 
已 被 用 作 分 子 计时 器 或 分 子 尺 , 用 来 在 亲缘 性 很 远 的 物种 间 测 量 
进化 树 距离 , 即 两 个 不 同 物种 的 分 离 时 间 长 短 。 一 个 生物 (或 是 一 
个 群体 ) 的 存活 与 它 的 表 型 有 关 , 而 且 表 型 的 遗传 变异 发 生 在 
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DNA 水 平 并 在 随机 发 生 突变 的 碱 基 位 置 上 积累 下 来 .如 果 表 型 对 
应 的 是 一 些 致死 性 结果 ,那么 突变 就 被 拒绝 。 生 物体 或 者 在 发 育成 
熟 前 死亡 或 变 得 没有 繁殖 力 , 这 样 就 失去 了 把 突变 基因 组 传 给 下 
一 代 的 机 会 .如 果 一 个 基因 的 核酸 序列 没有 被 拒绝 ,那么 随 着 时 间 
延续 ,在 一 个 基因 上 的 突变 积累 速度 就 是 一 个 直接 测量 标准 . 它 能 
反映 出 个 体 生存 能 力 表 现 型 的 重要 性 ,但 对 群体 则 不 然 ,然而 在 一 
个 人 群 中 ,等 位 基因 多 样 隆 是 特异 基因 突变 易 感 性 的 一 个 指标 。 组 
蛋白 基因 在 数 亿 年 中 极 低 的 突变 率 ,表明 这 些 蛋 白 的 结构 对 所 有 
真 核 生物 来 说 都 是 必 不 可 少 的 。 这 意味 着 在 细胞 周期 不 同 阶段 的 
染色 体 装 配 与 基因 复制 ,转录 同样 对 细胞 的 生存 是 极其 重要 的 。 

通过 把 基因 的 组 成 、 组 织 和 瞬时 表达 情况 的 信息 进行 分 类 和 
总 结 ， 基 因 组 学 将 给 出 细胞 功能 进化 的 细节 内 容 。 因 此 ，Internet 
成 为 科学 家 的 一 个 极其 重要 的 工具 并 不 令 人 惊奇。 因为 网 络 中 有 
众多 的 数据 库 ， 其 中 含有 数 千 种 的 基因 组 信息 、 物 种 分 类 以 及 以 
进化 树 “生命 之 树 ”(Tree of Life) 一 一 的 形式 显示 的 进化 关 
系 。 进 化 树 是 理解 进化 关系 的 可 视 性 方法 。 

“生命 之 树 " 以 图 形 形 式 描述 了 地 球 上 来 自 同 一 祖先 的 多 样 化 
的 生命 形式 。 人 们 相信 只 有 “一 棵 这 样 的 树 ”( 也 就 是 单个 始祖 细 
胞 ), 即 生命 并 非 有 多 个 起 源 。 经 过 推荐 并 证 实 的 一 个 观念 是 , ^E 
命 是 在 很 偶然 的 机 遇 下 起 源 于 非 生命 物质 的 。Arizona 大 学 的 生 
命 之 树 工 程 (http://phylogeny. arizona. edu/ tree/life. html) 提 
供 了 地 球 上 各 种 生命 的 可 视 性 进化 树 。 这 不 是 一 个 分 子 形式 的 进 
化 树 ， 而 是 一 个 经 典 的 分 类 学 进化 树 。 这 个 工具 对 没有 经 过 进化 
学 、 动 物 学 、 植 物 学 及 生态 学 正规 训练 的 分 子 生物 学 家 是 非常 有 
用 的 。 这 个 工程 包括 了 地 球 上 生物 的 多 样 性 、 历 史 及 其 特征 的 各 
种 信息 , 这 是 由 Arizona 大 学 的 David. R. Maddison 创立 并 协调 
的 一 个 有 多 位 作者 的 网 站 。 

蛋白 质 常 作为 大 的 蛋白 复合 物 的 一 部 分 而 存在 ,而且 只 有 在 
这 些 大 复合 物 的 所 有 成 分 都 存在 的 情况 下 ， 才 能 研究 这 些 蛋 白质 


第 四 章 ”基因 组 分 析 *135* 


的 活性 。 它 们 不 是 独立 的 , 因此 他 们 的 基因 也 不 可 能 是 独立 的 。 可 
有 些 蛋 白质 复合 物 是 由 随机 分 布 的 基因 编码 生成 的 ， 各 组 成 部 分 
在 染色 体 上 没有 任何 连锁 的 关系 。 在 人 类 基因 组 中 某 一 组 基因 如 
此 明显 地 缺乏 组 织 性 ， 是 否 有 什么 意义 呢 ? 红细胞 中 的 血红 蛋白 
一 一 其 功能 是 把 氧 从 肺 转运 到 靶 器 官 (如 肌肉 或 脑 ), 它 由 两 个 不 
同 的 基因 编码 的 四 个 紧密 结合 的 蛋白 亚 基 组 成 。 这 两 种 基因 称 为 
a $n B 血红 蛋白 基因 。 有 功能 的 血红 蛋白 复合 物 包含 着 每 个 基因 
产物 的 两 个 拷贝 ,形成 正确 的 复合 物 需 要 这 两 种 基因 一 同 表 达 。 由 
四 个 a 亚 基 或 四 个 BR 亚 基 组 成 的 血红 蛋白 是 没有 功能 的 ， 编 码 血 
红 蛋 白 " 亚 基 的 基因 ,实际 上 包括 了 序列 上 稍 有 不 同 的 一 组 基因 ， 
它们 在 胚胎 发 育 的 不 同时 期 表达 一 系列 不 同 的 蛋白 。 这样， 在 整 
个 发 育 时 期 的 某 一 特定 时 刻 ， 只 有 一 个 拷贝 的 亚 基 基因 艇 可 以 
表达 。a WIE BF 16 号 染色 体 上 , 不 同 拷贝 的 位 置 非常 接 
近 ; 而 8 亚 基 基 因 往 位 于 11 号 染色 体 上 。 

解剖 学 和 生理 学 的 表 型 是 多 基因 表 型 ， 也 就 是 说 由 几 种 基因 
产物 组 成 基因 型 。 除 了 个 体外 观 上 显而易见 的 特征 外 ， 细 胞 的 新 
陈 代谢 是 研究 多 酶 反应 途径 的 最 好 平台 。 像 糖 、 脂 肪 、 氨基 酸 、 脂 
质 等 的 合成 与 分 解 代谢 是 一 些 复杂 的 相互 联系 的 代谢 途径 的 一 部 
分 。 在 不 同 生 物 的 基因 组 中 构成 每 个 代谢 途径 的 基因 组 织 是 不 同 
的 。 有 一 个 原则 ， 在 功能 和 结构 上 相互 作用 的 蛋白 与 它们 的 基因 
在 染色 体 上 的 位 置 之 间 ， 没 有 严格 的 相互 联系 。 有 时 这 些 基因 在 
基因 表达 后 紧密 地 结合 成 一 个 功能 单位 ， 但 它们 的 基因 却 散 在 地 
分 布 于 整个 基因 组 ， 功 能 基因 组 学 可 能 会 解决 这 个 问题 。 

在 特殊 的 DNA 序列 和 生物 染色 体形 态 之 间 有 一 个 确定 的 关 
系 。 以 下 独特 的 形态 学 特性 已 被 证 实 : 

* 端 粒 区 (串联 重复 序列 ; 与 衰老 有 关 ) 

* 着 丝 粒 区 (串联 重复 序列 ) 

* 核 仁 组 织 区 (核糖 体 RNA 基因 , 与 染色 体 对 中 间 的 形态 有 
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由 于 基因 功能 和 染色 体 结构 间 的 关系 密切 ， 基 因 组 的 物理 图 
谱 对 于 理解 生物 体 的 独特 性 及 它 的 发 育 规律 (生命 周 期 ) 是 极为 
重要 的 。 一 个 生物 体 的 独特 性 不 仅 取决 于 其 基因 的 组 成 ， 而 且 取 
决 于 染色 体 结构 。 哺 乳 动 物 的 染色 体 存在 着 中 间 着 丝 粒 和 近 端 着 
丝 粒 两 种 形式 。 已 经 发 现 不 同 物种 的 个 体 〈 尽 管 在 基因 序列 上 关 
系 很 近 ) 由 于 染色 体 结构 在 细胞 融合 和 分 裂 中 的 不 相 容 (染色体 
结构 即 依赖 于 组 蛋白 形成 超级 结构 ), 它 们 在 生殖 方面 也 是 不 相 容 
的 。 在 此 ， 我 们 可 以 见 到 一 个 相互 作用 的 环 。 编 码 组 蛋白 的 基因 
是 由 这 些 蛋 白质 相互 之 间 以 及 与 DNA 之 间 的 相互 作用 来 调节 
的 。 由 于 这 种 相互 作用 在 细胞 分 裂 中 非常 重要 ， 又 可 以 决定 细胞 
的 生存 能 力 ， 所 以 组 蛋白 核 苷 酸 的 突变 影响 其 氨基 酸 的 组 成 。 这 
又 可 以 影响 到 染色 体 的 结构 ,继而 影响 组 蛋白 基因 的 复制 和 表达 ， 

二 、 基 因 组 作 图 

基因 组 数据 库 在 研究 那些 功能 还 没有 明确 的 新 基因 的 工作 中 
所 起 的 作用 越 米 越 大 。 通 过 类 推 的 方法 考虑 一 个 基因 的 位 点 和 与 
染色 体位 点 的 关系 ， 就 有 可 能 推断 其 功能 ， 并 且 对 设计 将 来 的 实 
验 很 有 用 。 染 色 体 定位 与 DNA 序列 相似 ， 常 常 有 变化 〈 如 : R 
变 ), 并 且 在 每 一 代 之 间 都 可 能 有 变化 。 在 真 核 生 物 中 , 染色 体 片 
段 的 重 排 〈 同 源 重组 、 相 互 杂 交 、 减 数 分 裂 和 有 丝 分 裂 ) 是 个 体 
之 间 遗 传 多 样 性 的 重要 部 分 .遗传 多 样 性 以 染色 体重 排 为 基础 。 正 
象 如 上 提 到 的 ， 尽 管 全 部 基因 组 的 内 容 还 是 稳定 的 〈 全 部 基因 都 
遗传 了 ), 但 个 体 在 遗传 上 仍 是 各 有 其 特点 的 。 重 排 可 以 影响 和 改 
变 基因 表达 的 顺序 和 程序 。 

许多 这 样 的 重 排 过 程 也 可 以 导致 疾病 ， 这 也 是 理解 基因 表达 
和 和 染色体 形态 之 间 关 系 的 另外 一 个 原因 。 与 医学 因素 相关 的 基因 
组 数据 库 内 容 逐 渐 增 加 的 现象 , 也 反映 了 这 个 研究 目的 . 同样 , 有 
关 遗 传 性 疾病 信息 的 站 点 数量 也 在 逐渐 增多 (如 NIH 的 健康 信 
息 : http://www. nih. gov/health/). 
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遗传 连锁 图 谱 是 通过 遗传 特征 , 描述 DNA 标记 (基因 和 其 他 
可 以 确认 的 DNA 序列 ) 的 相关 染色 体 的 位 点 。 主 要 研究 这 些 标记 
是 否 一 起 遗传 ， 图 谱 中 DNA 标记 之 间 的 距离 表明 了 它们 一 起 遗 
传 的 频率 。 这 是 人 群 遗 传 学 的 研究 领域 ， 在 人 类 就 是 研究 常 染色 
体 和 性 染色 体 特征 的 家 族 史 。DNA 标记 必须 是 多 态 性 的 才 有 用 。 
多 态 性 (突变) 是 DNA 序列 的 变异 ,平均 每 300-500bp 出 现 一 次 ， 
代表 了 基因 长 度 分 布 的 低 限 。 这 意味 着 基因 的 多 态 性 是 非常 常见 
的 特征 ， 如 果 突 变 发 生 在 外 显 子 上 ， 尽 管 许多 突变 可 以 导致 一 些 
可 以 观察 到 的 变化 , 例如 眼睛 的 颜色 、 血 型 和 疾病 易 感性 等 不 同 ， 
然而 突变 并 不 一 定 翻译 成 一 个 改变 的 表 型 。 如 果 突 变 发 生 在 基因 
组 非 编码 区 , 也 可 以 作为 DNA 水 平 上 的 分 子 标记 , 但 没有 留 下 可 
见 的 表 型 或 只 能 使 生物 体 活力 减弱 。 因 为 它们 通常 位 于 基因 组 的 
非 编 码 区 , 因此 可 以 被 认为 是 隐 性 突变 , 只 能 在 DNA 水 平 识别 出 
来 ,简短 地 说 ， 遗 传 连锁 图 谱 是 在 一 个 家 族 中 〈 代 代 相 传 ) 观察 
两 个 标记 一 起 遗传 的 频率 的 基础 上 构建 的 。 孟 德尔 的 豌豆 颜色 构 
成 了 这 样 的 标记 ， 尽 管 有 些 标记 明显 是 独立 遗传 的 〈 在 染色 体 上 
没有 相连 )， 但 有 些 是 连锁 的 ， 他 们 位 于 同一 染色 体 。 

遗传 图 谱 曾经 用 于 寻找 一 些 重要 疾病 基因 的 确切 染色 体 定 
位 , 包括 讲 性 纤维 化 、 锐 状 细胞 疾病 、 家族 黑 蒙 性 白痴 、 脆 性 X 综 
合 征 和 肌 强 直 营 养 不 良 等 疾病 。 


基因 组 计划 的 短期 目标 是 建立 高 分 辨 率 的 遗传 图 谱 (2 一 5 IURE (cM, 
centimorgan) ) 。 两 个 标记 如 果 通 过 重组 同时 被 分 离 的 几率 是 1%, 它们 之 同 
的 距离 就 是 1-cM, 1-cM 的 距离 大 致 相当 于 物理 距离 1 百 万 碱 基 对 (1Mb)。 
几 年 前 ,一些 染色 体 的 公认 图 谱 遗传 标记 之 间 的 距离 是 7 到 10-cM, 最 近 人 
类 和 遗传 图 谱 已 经 达到 0.7. cM. HF RA DNA 技术 的 使 用 , 遗传 图 谱 的 分 辨 
率 提 高 了 。 这 些 技术 包括 体外 放射 线 诱导 染色 体 片段 化 和 细胞 融合 技术 (将 
人 的 细胞 与 其 他 物种 细胞 融合 形成 杂交 细胞 )， 以 制备 一 些 带 有 特异 和 多 样 
的 人 染色 体 组 分 的 细胞 。 评估 放射 线 诱导 的 DNA 片段 化 后 的 标记 位 点 是 否 
仍然 在 一 起 的 频率 , 可 以 建立 这 些 标记 的 顺序 和 距离 。 因为 只 需要 分 析 染 色 
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体 的 一 个 找 贝 ， 所 以 非 多 态 性 位 点 在 放射 杂交 作 图 中 也 非常 有 用 (摘自 : 
Primer on Molecular Genetics, Dennis Casey, Dept. of Energy, 1992, 
http://www. bis. med. jhmi. edu/Dan/DOE/intro. html). 


2， 物理 图 谱 

物理 图 谱 描述 基因 组 或 染色 体 中 基因 或 DNA 标记 的 分 子 组 
织 。 根 据 使 用 的 技术 不 同 ， 图 谱 的 分 辩 率 也 大 不 相同 。 早 期 的 方 
法 依赖 显微镜 技术 观察 染色 体 致密 形式 的 分 带 特征 ， 分 带 通常 与 
染色 体 不 同 的 活性 区 域 相 关 .。 在 光 镜 下 , 需要 在 DNA 处 于 相当 好 
的 组 织 形式 时 制备 染色 体 (例如 有 丝 分 裂 时 )。 电镜 提供 了 更 高 的 
分 辨 率 ， 可 以 得 到 更 为 细致 的 结构 。 

高 分 辨 率 物理 图 谱 应 用 了 越 来 越 多 的 已 知 序列 信息 ， 并 且 将 
显微镜 数据 与 遗传 连锁 图 和 DNA 标记 周围 的 DNA 序列 结合 起 
来 。 最 终 的 物理 图 谱 是 人 基因 组 或 染色 体 的 全 部 重 伙 DNA 序列 。 
由 于 遗传 连锁 图 谱 是 在 染色 体重 组 活性 的 基础 上 测量 标记 之 间 的 
距离 ， 物 理 图 谱 和 遗传 连锁 图 谱 上 的 相对 标记 间距 离 可 以 有 很 大 
的 不 同 ， 这 也 是 由 于 在 减 数 分 裂 和 有 丝 分 裂 中 染色 体 上 不 同位 点 
的 重组 频率 不 同 。 这 种 行为 的 机 制 还 不 清楚 。 它 可 以 是 独立 的 或 
与 染色 体 结构 相关 的 简单 序列 ， 实 际 上 可 能 是 由 序列 的 特征 来 决 
定 的 。 物 理 图 谱 和 功能 图 谱 ( 即 标明 基因 功能 的 基因 组 图 谱 ) 之 
间 的 差别 也 非常 有 意思 ,基因 组 计划 将 为 回答 这 些 问题 提供 信息 。 

Sanger 测序 中 心 的 站 点 (http://www. sanger. ac. uk/) 提供 
了 人 染色 体 的 物理 图 谱 ， 他 们 的 分 级 结构 可 以 将 用 户 感 兴趣 的 克 
隆 定位 到 特定 的 染色 体位 置 ， 并且 可 以 逐步 深入 到 细节 直到 已 知 
的 核 苷 酸 序列 。 

3. 表达 图 谱 

确认 基因 结构 是 人 类 基因 组 计划 初始 的 驱动 力 ; 同时 克隆 基 
因 在 药物 发 现 中 有 重要 的 作用 。 原 因 非 常 简单 ， 因 为 结构 基因 可 
以 被 激活 或 灭 活 ， 所 以 很 容易 确认 。 实 际 上 ， 确 认 基 因 的 难题 归 
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图 4-5 ”公众 基因 组 计划 组 织 测序 人 类 基因 组 的 策略 。 首 先 将 全 基因 
组 打 碎 成 大 的 片段 .克隆 到 BAC 载体 中 ,构建 BAC 文库 ; 然 
后 利用 多 态 性 标记 排列 成 大 片段 DNA 克隆 重 登 群 ; 将 每 个 
BAC 克隆 打 碎 成 短片 段 , 克 降 人 质粒 载体 ; 短片 段 测序 后 的 
序列 经 软件 装配 成 完整 的 序列 。 
结 为 在 细胞 中 确认 mRNA, 得 到 的 序列 标签 可 以 作为 确认 新 的 真 
核 生物 基因 的 工具 。 这 就 要 选择 非常 短 的 片段 并 测序 用 来 构建 所 
谓 的 表达 图 谱 ， 而 不 是 等 待 全 基因 组 测序 完成 。 因 为 基因 是 由 编 
码 区 和 包含 调控 序列 的 非 编码 区 组 成 ， 所 以 表达 序列 标签 和 序列 
标签 位 点 在 构建 人 类 染色 体 的 高 分 辨 率 图 谱 和 建立 连锁 时 都 是 很 
重要 的 工具 。NCBI 写 到 : 美国 人 类 基因 组 计划 的 一 个 特殊 目的 就 
是 构建 基因 组 的 高 分 辩 率 STS (sequence tagged sites, 序列 标签 
位 点 ,基因 组 中 由 PCR 得 到 的 序列 ) 图 谱 。 由 于 EST (表达 序列 
标签 ) 来 源 于 活性 基因 ,确认 ESTs 是 确认 人 类 基因 的 捷径 .ESTs 
可 以 在 未 知 任何 功能 时 获得 .由 于 基因 并 非 在 任何 时 候 都 表达 ,而 
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且 经 常 以 一 种 特异 细胞 类 型 的 方式 表达 (也 就 是 在 生命 体 不 同 发 
育 阶 段 , 其 表达 是 特异 的 )。 所 以 在 全 部 生命 周期 和 所 有 生理 上 相 
关 的 组 织 中 都 必须 检测 mRNA 的 存在 然后 进行 测序 .这 种 方法 忽 
咯 了 一 个 真 核 生 物 基 因 组 的 大 部 分 ， 但 却 揭示 了 感 兴趣 的 生理 和 
医学 情况 ， 这 也 就 是 功能 基因 组 学 。 

非 编码 区 DNA 通过 PCR 技术 逐 段 测序 , STS 数据 库 的 产生 
包括 可 以 用 于 确定 染色 体位 点 的 特异 序列 标签 ， 可 以 作为 基因 共 
同 分 离 的 标记 。 应 用 电子 PCR (electric PCR), 搜寻 已 知 染 色 体 
位 点 的 STS 并 与 新 序列 进行 比较 ,可 以 确定 其 染色 体 定位 。 这 种 
方法 一 电子 PCR 可 以 用 于 制 成 各 种 类 型 的 基因 组 图 谱 。 

总 的 来 说 ,快速 测序 通常 导致 一 些 结果 是 部 分 序列 或 未 完成 
的 序列 。GenBank 的 高 通 量 分 部 (http://www. ncbi. nim. nih. 
gov/HTGS/) 试图 改进 这 一 状况 , 并 且 与 提交 到 其 他 数据 库 的 序 
列 片段 数据 合作 ， 以 弥补 这 些 部 分 序列 或 未 完成 序列 。 这 里 也 包 
括 日 本 和 欧洲 的 数据 库 ， 这 个 努力 的 结果 就 是 三 个 国际 数据 库 的 
合作 (DDBJ, EMBL ffl GenBank). 

4. 减少 元 余 性 

随 着 基因 组 计划 发 展 为 一 个 有 组 织 的 科研 项 目 ， 减少 元 余 性 
是 数据 库 流 水 线 化 和 优化 过 程 中 最 受到 关心 的 问题 。 宛 余 性 的 原 
因 不 仅 由 于 不 同 研究 者 对 相同 的 蛋白 或 基因 感 兴趣 的 事实 ， 而 且 
还 由 于 利用 不 同方 法 随机 克隆 和 测序 基因 组 所 产生 的 片段 ， 许 多 
片段 没有 生物 学 的 相关 注释 。 

GenBank 是 一 个 综合 性 的 序列 数据 的 资源 库 , 但 选择 物理 图 
谱 中 的 侯 选 序列 是 很 困难 的 。 这 里 大 部 分 的 原因 是 ， 来 自 同一 基 
因 的 多 个 序列 记录 彼此 并 不 相同 ， 这 些 基因 序列 之 间 带 有 不 同 数 
量 的 一 端 序列 或 内 含 子 序列 .这 是 由 于 mRNA 序列 有 不 同 的 剪 切 
方式 而 产生 了 不 完整 或 有 变异 的 序列 。 最终, ESTs 序列 仅仅 是 片 
段 而 且 有 很 高 的 错误 率 . 在 UniGene 系统 中 , 如 果 不 同 序列 在 3” 
端 非 编 码 区 的 同 源 性 在 统计 学 上 很 有 意义 ,这 些 序列 就 可 以 组 成 
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— UniGene f£, Washington 大 学 和 Merck 公司 得 到 的 ESTs 
序列 是 来 自 利用 Oligo (dT) 为 反 转 录 引 物 的 mRNA ， 然 后 定向 
克隆 并 且 从 5" 端 和 3? 端 都 测序 ， 这 样 利用 3” 端 序列 来 组 成 
UniGene f. 同时 将 处 于 同一 克隆 的 5 端 序列 也 纳入 该 UniGene 
dk (www. ncbi. nlm. nih. gov/Schuler/Papers/Esttransmap/). 

当然 ， 宛 余 性 对 于 基因 组 作 图 的 某 些 方面 和 质量 控制 是 有 好 
处 的 ， 而 且 宛 余 性 和 同 源 性 是 关系 非常 密切 的 两 个 概念 。 同 源 实 
际 上 是 指 两 个 或 多 个 不 同 基 因 有 很 大 的 相似 性 ， 这 些 序列 很 可 能 
是 某 一 人 群 中 的 等 位 基因 或 者 是 不 同 物种 或 生物 分 类 中 特异 基因 
的 同 源 基 因 。 

三 、 人 类 基因 组 作 图 进展 

在 1998 年 初 ， 人 们 预计 人 类 基因 组 测序 工作 将 在 2005 年 完 
成 。1998 年 十 月 , 一 个 新 的 基因 组 学 公司 ,Celera 公司 (http:// 
www/celera.com/) 成 立 了 。 它 是 由 Perkin-Elmer 公司 (http:// 
www. perkin-elmer. com/) 和 J. Craig Venter 作为 发 起 人 。 在 这 
个 私人 公司 的 竞争 下 ,美国 政府 资助 的 人 类 基因 组 计划 将 
“working draft (工作 草图 ) ”完成 的 时 间 已 经 提前 到 了 2001 年 。 目 
前 ,Celera 公司 和 公众 基因 组 计划 组 织 的 工作 草图 已 经 在 2001 年 
2 月 发 表 ， 并 计划 在 2003 年 完成 精细 准确 的 序列 图 。 

应 用 新 的 硬件 和 软件 在 这 个 发 展 中 是 非常 关键 的 。 公 众 基因 
组 计划 组 织 遵 守 国际 放射 杂交 作 图 协议 International Radiation 
Hybrid Mapping Consortium)， 其 相关 信息 可 以 通过 NCBI 获得 
(http://www. ncbi. nlm. nih. gov/ genemap98) 。 参 加 国际 放射 杂 
交 作 图 协议 的 主要 基因 组 中 心 如 表 4-1。 全 部 参加 机 构 的 名 单 参 
见 NCBI GeneMap’98.. 

GeneMap’98 包含 了 公布 数据 的 30,261 个 基因 的 位 点 (2002 
年 初 ), 已 测序 和 定位 的 基因 以 指数 级 增长 。 位 点 由 序列 标签 位 点 
(STS) 标记 并 且 每 一 个 STS 在 全 基因 组 中 是 唯一 的 。 因为 人 类 基 
因 组 只 有 一 部 分 已 测序 ， 只 有 3% 的 STSs 序列 对 应 实际 的 基因 。 
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表 4-1 参加 国际 放射 杂交 作 图 协议 的 主要 基因 组 中 心 


基因 组 中 心 地 点 互联 网 地 址 
Genethon Evrey, France www. genethon. ir/genethon _ 
en. html 
The Sanger Center Cambridge, UK www. sanger. ac. uk 


The Stanford Human Genome Palo Alto, CA, U.S. www-shge. Stanford. edu/ 
Center (SHGC) 


The Whitehead Institute for Cambridge, MA. www. genome, wi. mit. edu/ 
Biomedical Research US. 
The Wellcome Trust Centre or Oxford, UK www. well. ox. ac. uk/ 


Human Genetics 'WTCHG ) 


GeneMap'98 是 从 来 源 于 表达 序列 的 STS 序列 中 得 到 的 ， 代 表 了 
基因 组 的 3%。 由 于 这 个 原因 , 目前 的 图 谱 实 际 上 是 指 人 类 转录 图 
谱 。 目 前 NCBI 提供 新 的 版 本 GeneMap’99 (http://www. ncbi. 
nlm. nih. gov/ genemap99) ， 其 统计 数据 与 GeneMap'98 相似 。 

GeneMap’98 和 GeneMap'99 提供 了 每 条 染色 体 基 因 的 大 致 
分 布 情况 。 由 于 它 在 ESTs 的 水 平 上 比较 了 预期 的 基因 密度 和 检 
测 到 的 基因 密度 ， 所 以 关于 基因 的 活性 和 基因 剂量 效应 的 相关 信 
息 可 以 从 这 里 得 到 。 很 明显 ， 沿 着 染色 体 基 因 分 布 的 密度 不 是 一 
致 的 。19 和 17 号 染色 体 密度 最 高 , 而 18 和 X 染色 体 比 预期 值 低 
得 多 , 后 者 可 能 是 由 于 女性 X 染色 体 灭 活 或 男性 是 XY 染色 体 造 
成 的 。 要 注意 的 是 ， 目 前 的 转录 图 反映 了 基因 的 表达 活性 ， 而 不 
是 编码 区 的 实际 情况 ， 基 因 的 密度 反映 一 个 功能 分 布 而 不 是 物理 
分 布 。 从 ESTs 和 STSs 获得 的 基因 密度 的 不 同 显示 了 基因 剂量 
效应 。 

四 、 人 类 基因 组 序列 草图 公布 

-由 国际 人 类 基因 组 测序 协会 和 美国 Celera Genomics 公司 分 
别 完 成 的 人 类 基因 组 序列 工作 框架 图 (Working Draft) 终于 公布 
了 。 作 为 科学 界 的 一 大 成 就 ， 查 明 人 类 DNA 30 亿 个 碱 基 对 的 序 
列 几乎 能 与 登陆 月 球 、 原 子弹 的 研制 相 媲 美 . 目前 预测 人 类 大 约 
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A 32000 个 基因 ， 已 经 确定 了 其 中 的 22000 个 ， 与 拟 南 芥 基因 组 
中 25000 个 基因 相 比 , 数量 较 接近 。 因 此, 我 们 可 以 清楚 看 到 : 对 
于 生命 来 说 ， 有 比 基 因 数量 更 重要 的 东西 。 虽 然 人 类 基因 的 数量 
比 预计 的 要 少 , 但 我 们 的 基因 组 仍 是 目前 被 检测 的 最 大 的 基因 组 。 
在 已 完成 的 基因 组 序列 中 仍 有 一 些 漏洞 ， 一 些 区 域 需要 重 做 。 

《自然 ) 杂 志 上 公布 的 人 类 基因 组 序列 是 耗资 3 亿美 元 的 成 果 
(Nature, 15 February, 2001) ,是 全 世界 数 百名 研究 人 员 协 同 工 
作 的 结果 。 KE Celera Genomics 公司 同时 也 在 《科学 》 杂 志 上 公 
布 了 它 的 人 类 基因 组 序列 草图 (Science, 16 February，2001) 。 公 
共 资 助 的 草图 是 全 部 公开 的 ， 而 Celera 的 序列 是 有 限制 的 。 

现在 人 类 拥有 两 个 不 尽 相同 的 人 类 基因 组 序列 草图 ， 且 存在 
着 大 量 的 缺口 、 错 误 、 元 余 以 及 不 完整 的 诠释 。 这 些 问题 说 明 每 
一 个 草图 均 不 完美 ,但 是 许多 这 样 的 问题 可 以 比较 评估 。 经 过 对 
这 两 个 草图 的 可 比 性 分 析 ， 发 现 了 一 些 序列 的 特征 ， 包 括 序列 缺 
口 、 连 续 性 、 这 两 个 序列 的 一 致 性 和 DNA 结合 蛋白 区 的 格式 。 人 
类 基因 组 的 两 个 草图 分 别 由 人 类 基因 组 计划 (HGP) 委员 会 及 
Celera 遗传 学 公司 绘制 的 。 基 因 组 序列 详细 描述 了 DNA 片段 的 
直接 序列 以 及 在 这 些 序列 重 亚 的 基础 上 把 小 片段 序列 聚 类 成 更 大 
的 单位 ( 鸟 枪 聚 类 法 ) .HGP 应 用 的 是 一 种 不 同等 级 作 图 和 测序 的 
方法 ， 包 括 一 系列 重 释 克隆 的 构建 ， 这 些 克隆 覆盖 了 整个 基因 组 
并 对 每 一 个 克隆 应 用 鸟 枪 测序 法 进行 测序 。 在 这 些 克隆 上 的 序列 
重合 、 作 图 和 染色 体 上 位 置 的 信息 的 基础 上 ， 进 行 片段 聚 类 分 析 
而 重建 出 基因 组 序列 。Celera 遗传 学 公司 应 用 的 是 对 整个 基因 组 
进行 鸟 枪 测序 法 测序 ， 因 而 没有 产生 一 系列 重 县 的 克隆 ， 但 是 也 
在 适当 的 地 方 结合 了 HGP 的 信息 。 
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全 世界 储存 在 数据 库 中 的 DNA 序列 有 300,000 多 个 ， 新 基 
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因 用 于 医学 和 生物 学 研究 的 潜力 是 巨大 的 ,很 明显 在 40 多 个 已 完 
成 的 微生物 基因 组 计划 中 有 大 量 的 结构 基因 是 新 的 。 这 意味 着 还 
没有 在 实验 中 证 实 它们 的 生物 化 学 和 生理 学 功能 ， 对 这 些 序列 的 
结构 和 功能 的 注解 (观察 它们 与 已 知 蛋 白 的 相似 性 ) 可 依靠 自动 
化 的 统计 学 分 析 。 预 测 结构 和 功能 的 方法 是 获得 其 生物 学 信息 的 
第 一 步 ， 这 些 注解 也 越 来 越 多 基于 以 前 预测 的 信息 。 序 列 的 生物 
学 含义 ， 即 表 型 和 蛋白 结构 功能 等 ， 仍 然 是 对 蛋白 的 生物 化 学 特 
性 的 注解 。 这 意味 着 即使 在 基因 组 计划 完成 之 后 ， 仍 然 需 要 许多 
年 在 生理 学 水 平 上 研究 生物 体 的 整体 复杂 性 。 完 成 全 部 基因 组 测 
序 后 首先 要 做 的 工作 之 一 就 是 了 解 其 内 容 ， 如 : 表 型 和 基因 型 的 
关系 。 从 基因 组 数据 中 提取 和 分 析 信息 的 任务 可 以 通过 一 些 公 共 
软件 实现 ,这 些 软件 可 以 分 析 与 DNA、RNA 和 蛋白质 相关 的 一 些 
特性 。 表 4-2 和 4-3 是 一 些 研究 基因 组 结构 、 确 认 新 基因 和 它们 相 
关 的 蛋白 结构 的 常用 方法 以 及 其 软件 的 Internet 地 址 。 


X42 DNA 和 RNA 的 公共 分 析 软 件 工具 


用 途 软件 互联 网 网 址 

序列 相似 性 比较 BLASTn, tBLASTx, www. ncbi. nlm, nih. gov/BLAST 
BLASTx 

寻找 开放 恋 框 (ORF) ORF Finder www. ncbi. nim. nih. gov/gor{ /gorf. html 

在 DNA 序列 中 寻找 。 Electronic PCR www. ncbi. nlm. nih. gov/STS/ 

HL AE I 

H DNA RRNA 翻译 Translate and Protein www. expasy. heuge. ch/tools/dna. html 

为 蛋白 Machine 和 www. ebi. ac. uk/translate. html 

比较 基因 组 和 看 白质。 GeneWise www. sanger. ac. uk/Software/Wise2/ 

序列 genewiseform. shtm 

寻找 基因 Gene Recognition ard www. compbio. ornl. gov/Grail-1. 3/4% 
Assembly Internet — www-hto. usc. edu /software/procrustes 


Link (GRAIL) 和 
PROCRUSTES 
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R413 蛋白 质 的 公共 软件 分 析 工 具 


用 途 软件 互联 网 网 址 
序列 相似 BLASTp, tBLASTn www. ncbi. nlm. nih. gov/BLAST 
性 比较 
自动 结构 SWISS-MODEL www. expasy. ch/swissmod/SWISS- 
建 模 MODEL. html 


蛋白 确认 Protein Identification and www. expasy. ch/tools/# proteome 
和 特征 Characterization Programs 


寻找 蛋白 Pattern and Profile Search Expasy. hcuge. ch/tools/ ft pattern 
mima Programs 


结构 分 析 Primary Structure Analysis www. expasy. ch/tools/ t primary 
Secondary Structure Prediction www. expasy. ch/tools/ # secondary 
Tertiary Structure Programs www. expasy. ch/tools/ # tertiary 


序列 排列 “Sequence Alignment www. expasy. ch/tools/ # align 
Programs 

2 维 凝 胶 Melanie II www. expasy. ch/tools/melanie/ 

电泳 分 析 


理解 基因 型 和 表 型 之 间 的 关系 的 第 一 步 是 观察 全 基因 组 的 功 
能 ,这 可 以 在 mRNA 的 细胞 表达 谱 中 反映 出 来 。 新 基因 的 表达 与 
某 些 细胞 活性 相关 ,可 以 提示 一 些 有 生物 学 意义 的 信息 。 研 究 表达 
谱 可 以 使 我 们 了 解 未 知 基 因 的 时 空 信息 。 这 样 一 个 简单 的 程序 可 
以 使 我 们 按照 相互 关系 来 构建 数据 库 。 数 据 库 可 以 按照 蛋白 和 基 
因 在 不 同 功能 水 平分 成 亚 数 据 库 ,数据 库 的 分 级 结构 可 以 按照 特 
殊 的 方式 帮助 生物 学 家 快速 查找 关于 蛋白 基因、 代谢 途径 、 酶 活 
性 以 及 进化 关系 的 相关 信息 。 当 前 的 数据 库 是 应 用 相关 序列 、 蛋 
白 、 分 类 信息 、 预 测 的 二 级 结构 和 蛋白 的 结构 域 组 织 来 构建 的 。 

理解 进化 上 有 一 定 距 离 的 生物 (属于 不 同 种 类 ,如 细菌 和 人 ) 
蛋白 质 家 族 的 功能 和 结构 是 必要 的 。 进 化 距离 相关 的 生物 序列 经 
比较 后 可 以 分 为 三 种 类 型 :第 一 种 就 是 在 细胞 的 复制 和 信息 储存 
中 起 作用 的 蛋白 ,它们 之 间 有 高 度 同 源 性 ,这 些 基因 是 真正 的 同 源 
基因 ,它们 有 共同 的 祖先 基因 ,形成 一 个 蛋白 家 族 。 第 二 种 具有 相 
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似 的 结构 和 功能 ,但 序列 不 相似 ,它们 之 间 的 关系 可 以 通过 结构 和 
功能 的 相似 性 推断 出 来 ,但 没有 有 意义 的 序列 相似 性 .它们 可 能 在 
进化 上 是 或 不 是 相关 的 ,也 可 能 是 会 聚 性 进化 (convergent 
evolution) 的 例子 .第 三 种 则 在 序列 ,功能 或 结构 上 都 没有 相似 性 。 

因为 催化 位 点 的 结构 特征 比 全 基因 或 全 蛋白 的 DNA 或 氨基 
酸 序 列 更 保守 ,所 以 编码 核 苷 酸 结合 区 域 的 局 部 序列 在 研究 进化 
相关 性 中 更 有 价值 .这 一 点 可 帮助 我 们 查找 序列 中 的 保守 特征 ,也 
正 是 这 些 特征 在 确定 基因 之 间 的 进化 关系 中 有 意义 。 其 至 在 一 些 
基因 的 全 长 序列 与 其 它 蛋 白 有 很 低 的 同 源 性 或 没有 同 源 性 时 ,其 
功能 区 也 可 能 有 高 度 的 结构 保守 性 。 因 为 只 有 所 选择 的 基因 片段 
有 同 源 性 ,这些 特征 可 以 提示 一 些 进化 机 制 , 如 基因 复制 或 重组 活 
动 。 

在 加 利 福 尼 亚 La Jolla 的 Scripps 研究 所 (Scripps Research 
Institute) , Adam Godzik 开发 了 一 种 新 的 算法 来 解决 确认 结构 相 
似 但 序列 不 相同 的 蛋白 的 难题 ,基因 组 分 析 主 页 (http : //cape6. 
scripps. edu/leszek/genome/) 提供 了 Mycoplasma genitalium, 
Escherichia coli 和 Helicobacter pylori 基因 组 与 PDB 的 蛋白 结构 
的 序列 比较 信息 ， 该 软件 将 全 部 基因 组 中 所 有 ORFs 的 预测 结构 
与 蛋白 数据 库 中 的 已 知 的 结晶 衍射 和 核磁 共振 蛋白 结构 进行 比 
较 。 比 较 结构 中 的 基 序 (motif) 可 以 帮助 我 们 确认 较 弱 的 相关 性 
(这 常常 在 BLAST 搜索 时 被 忽略 了 )， 但 在 预测 大 部 分 细菌 基因 
组 的 功能 时 仍然 不 行 。 将 大 肠 杆菌 基因 组 作为 一 个 例子 ， 它 一 共 
包含 4300 个 基因 编码 1500 个 预测 蛋白 (全 部 基因 或 ORF 的 
40%)， 在 这 些 基因 之 中 ，30%( 约 500 个 ORFs) 不 能 可 靠 地 预 
测 其 编码 的 蛋白 结构 ， 或 不 能 预测 其 功能 是 什么 , 另外 还 有 30% 
根本 不 能 预测 ,也 就 是 说 它们 是 全 新 的 蛋白 。 在 细菌 、 原生质 、 植 
物 或 动物 中 没有 已 知 的 对 应 蛋白 。 

Godzik 和 其 他 人 应 用 的 软件 使 用 折合 预测 (fold prediction) 
算法 、 特 征 (profile) /früE. £& Fg/Jy 9 Xn 4 48/25 F3 HE 5u 
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(MODELLER 和 COMPOSER 软件 )， 这 些 折合 或 局 部 结构 预测 
使 用 了 二 级 结构 预测 (secondary structure prediction), BRA 
酸 (buried amino acid) 和 接触 特征 (contact patterns) 等 方法 。 

一 、 未 确认 的 读 框 (Unidentified Reading Frames, URFs) 

基因 组 计划 完成 后 有 30%-40% 全 新 而 且 未 确认 的 基因 序 
列 ， 这 些 指 的 是 URFs (未 确认 的 读 框 ), 它们 没有 相关 的 生物 学 
信息 。 这 些 序列 没有 已 知 的 同 源 基 因 ， 所 以 它们 肯定 会 编码 出 一 
些 功能 还 没有 被 生化 学 家 或 微生物 学 家 发 现 或 研究 的 新 蛋白 。 一 
些 如 Adam Godzik 等 的 结构 预测 算法 在 这 里 有 很 大 的 帮助 , 但 对 
了 解 其 功能 则 没有 帮助 。 这 说 明 结 构 和 功能 关系 之 间 的 知识 还 有 
许多 未 知 的 东西 。 通 常情 况 下 ， 这 里 面 也 有 一 个 似乎 基于 实验 证 
据 上 的 文 饰 心 理 。 许 多 预测 结构 的 方法 是 统计 学 的 方法 ， 它 依赖 
从 已 知 的 结构 中 获得 的 信息 。 有 限 的 样品 数量 〈 已 知 结构 的 数 
量 ) 限制 了 预测 工具 的 准确 性 。 

研究 新 基因 进化 关系 的 另 一 个 可 选择 的 工具 是 通过 研究 基因 
组 “行为 ” 直接 进行 基因 组 比较 。 一 种 生物 已 知 蛋白 的 突变 率 是 多 
少 ? 这 个 信息 可 能 对 预测 一 种 生物 中 的 一 个 新 基因 的 唯一 性 有 帮 
助 ， 该 基因 与 任何 已 知 的 蛋白 都 没有 同 源 性 。 假 设 一 种 生物 的 全 
基因 组 突变 率 是 平均 的 ， 一 个 URF 序列 的 不 同 点 暗示 着 它 可 能 
属于 蛋白 的 一 个 新 类 型 。 

将 催化 连接 氨基 酸 与 某 些 转运 RNA (tRNA) 的 酶 作为 例子 
(RLF. Doolittle, 1998, Nature 392; 339), 在 哺乳 动物 中 至 少 有 
20 种 不 同 的 酶 , 每 一 种 对 应 一 种 氨基 酸 用 于 合成 蛋白 。 在 已 完成 
的 原生 质 M. jannaschii 基因 组 计划 中 ， 有 四 种 乙酰 化 氨基 酸 的 
tRNA 合成 酶 的 相应 基因 没有 确认 出 来 ,尽管 它们 肯定 存在 .因为 
所 有 的 tRNAs 与 其 相应 的 氨基 酸 是 适当 连接 的 .缺乏 该 基因 的 一 
个 可 能 的 解释 ， 就 是 假设 乙酰 化 氨基 酸 tRNA 合成 有 一 个 全 新 的 
机 制 对 连接 到 tRNA 分 子 上 的 氨基 酸 的 化 学 修饰 。 有 一 个 未 确 
VERRY MAM tRNA 合成 酶 ， 这 是 在 一 个 与 基因 组 计划 无 
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关 的 研究 工作 中 证 实 的 ， 这 种 合成 酶 负责 将 赖 氨 酸 和 其 相应 的 
tRNA 连接 ， 它 的 序列 与 任何 已 知 的 赖 氨 酸 -tRNA 合成 酶 序列 不 
同 。 实 际 上 , 这 就 是 全 新 蛋白 质 家 族 的 一 个 例子 , 结论 是 从 DNA 
序列 可 以 判断 完全 不 相关 的 两 个 蛋白 质 可 能 执行 相同 的 酶 活性 。 
这 种 现象 可 以 在 其 他 种 类 的 酶 中 见 到 ， 例 如 丝氨酸 蛋白 酶 、 廉 蛋 
白 酶 和 枯草 杆菌 蛋白 酶 。 尽 管 有 不 同 的 底 物 ， 它 们 利用 结构 保守 
的 活性 区 域 催化 相同 的 化 学 反应 。 

蛋白 质 在 进化 上 不 相关 而 功能 却 相 似 的 事实 ， 证 实 了 在 完全 
不 知道 功能 数据 的 情况 下 ， 推 测 DNA 序列 能 编码 出 何 种 蛋白 质 
是 很 困难 的 ， 有 时 甚至 是 不 可 能 的 。 应 用 来 自 功能 研究 的 数据 对 
于 确认 URFs 的 生物 学 功能 是 必需 的 。 为 了 理解 乙酰 化 氨基 酸 - 
tRNA 合成 酶 结构 和 功能 之 间 的 关系 ,需要 精通 这 方面 的 知识 ,不 
熟悉 tRNA 代谢 的 科学 家 不 可 能 发 现 这 里 明显 的 关系 。 

二 、 同 源 异 种 组 (Cluster of Orthologous Groups; COGs) 

在 分 类 不 同 的 生物 中 〈 同 源 异 种 组 ，orthologs) 发 现 基 因 之 
间 的 关系 ， 与 在 同一 种 生物 或 同一 群体 中 发 现 基因 的 关系 同样 都 
是 基因 组 计划 真正 的 潜力 。 经 过 比较 8 种 已 完成 的 基因 组 编码 的 
蛋白 质 序列 ， 它 们 代表 了 6 个 主要 的 进化 树 分 支 (http://www. 
ncbi. nlm. nih. gov/COG; 1999 年 4 月 )。 在 NCBI 的 COGs 主页 
上 显示 了 同 源 异 种 组 (COGs), 目前 这 一 计划 已 经 包含 了 44 种 已 
完成 的 基因 组 ， 共 有 3311 个 COGs (2002 年 1 HD. 这 是 一 种 应 
用 数据 库 通过 联系 不 同 已 完成 基因 组 序列 信息 来 产生 新 信息 的 尝 
试 .按照 NCBI 构建 COGs 所 采用 的 功能 定义 ,任何 两 个 蛋白 质 如 
果 来 自 属 于 同一 COGs 的 两 个 不 同 物种 ,它们 就 是 同 源 异种 组 ,而 
且 假 设 是 通过 物种 进化 形成 的 。 同 源 异 种 组 也 包括 同 源 同 种 组 ,来 
源 于 基因 复制 活动 。 

应 用 已 完成 的 8 种 生物 基因 组 CE. coli;H. influenzae;M. 
genitalium; H. pylori; M. pneumoniae; Synechocystis; M. 
jannaschii;S. cerevisiae 等 ), 一 共 确 认 了 864 个 COGs 。 它们 分 别 
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AT fi Bia AeA J. K, LA, 细胞 合成 组 一 一 O、M 、 
N、P 组 ， 新 陈 代谢 组 一 -C、G、E、F、H、I 组 和 预测 或 未 知 功 
能 组 一 一 R、S 组 。 后 者 是 未 确认 功能 的 一 个 组 ,一 共 包 括 180 个 
COGs, 包含 与 预测 功能 相关 的 1828 个 蛋白 质 和 结构 域 (R) 以 及 
271 个 没有 特征 的 蛋白 质 或 结构 域 (S) 。 通 过 对 COGs 的 分 析 可 以 
使 我 们 理解 进化 的 关系 ， 并 且 在 物种 分 类 之 间 确 认 相 关 的 功能 。 

N 组 包含 20 个 COGs, 其 中 之 一 代表 了 在 真菌 和 真 核 生物 起 
作用 的 蛋白 酶 一 信号 肽 酶 家 族 (COG 1D0681), 但 在 原生 质 中 是 
没有 的 。 信 号 肽 酶 是 一 个 小 的 膜 结合 蛋白 ,负责 在 真 核 生 物 内 质 
网 以 及 细菌 和 线粒体 内 膜 转 运 蛋白 时 切除 蛋白 质 的 N 末端 信号 
肽 。 信 和 号 肽 酶 ICOG 包含 8 个 成 员 , 1 TE. coli 蛋白 LepB , H. 
influenzae 蛋白 HIN1152，Synechocysis sp. Fl Ml A # 
(paralogs) alr377 和 s110716, M. jannaschii 蛋白 MJ0260 和 3 个 
酵母 同 源 同 组 物 YMR150c、YMR035w 和 YIRO22w 。 

COG 证 实 了 在 进化 距离 上 相关 生物 的 蛋白 质 之 间 寻 找 进 化 
树 关 系 的 复杂 性 。 醇 母 同 源 同 组 物 之 一 YMR035w 与 三 个 不 同 的 
菌 种 (E. coli, H. influenzae 和 Synechocystis sp.) 显示 了 很 好 
的 相似 性 。YMR150c 和 YMR035w 是 酵母 线粒体 内 膜 上 的 蛋白 
酶 ,负责 在 内 膜 上 切除 某 些 蛋 白质 的 信号 肽 ,但 有 不 同 的 底 物 特 
异性 。 YIRO22w 是 酵母 内 质 网 上 的 信号 肽 处 理 蛋白 质 , 在 信号 肽 
切除 和 正常 蛋白 分 泌 速度 中 起 作用 。 

各 钥 的 树 状 图 显示 了 线粒体 蛋白 酶 与 细菌 同 源 异 组 物 的 相近 
关系 以 及 内 质 网 蛋白 酶 同 源 同 组 物 与 原生 质 M，Jannaschii 同 源 
异 组 物 之 间 的 关系 ， 这 与 真菌 都 有 一 个 共同 的 单 细 胞 生物 祖先 的 
理论 是 一 致 的 .M. jannaschii 蛋白 酶 与 酵母 和 cyanobacteria 都 有 
同 源 异 组 关系 ， 这 强调 了 在 分 类 学 上 原生 质 与 真 核 生 物 和 真菌 是 
不 同 的 。 这 个 COG 分 析 说 明 , 在 三 个 酵母 肽 酶 中 两 个 线粒体 亚 型 
是 真正 的 同 源 同 组 物 并 有 共同 的 真菌 起 源 ， 而 内 质 网 亚 型 是 独立 
进化 的 或 起 源 于 一 个 较 古老 的 祖先 基因 。 
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COG 数据 库 列 出 了 相关 基因 的 特征 ,这 些 特 征 表明 它们 在 不 
同 的 生物 中 出 现 。 其 中 一 个 特征 是 eh-cmy, 这 个 特征 排除 了 两 种 
35 25 E DAE SCR A: SOE A BH YH. pylori, 但 包括 了 
革 兰 氏 阴 性 致 病源 H. influenzae。 具 有 这 个 特征 的 39 个 其 他 的 
COGs 也 被 确认 了 , 其 中 包括 信号 肽 酶 I.COG 代表 了 最 共同 的 进 
化 遗传 特征 ,在 NCBI 的 8 种 基因 组 分 析 中 包含 了 110 Aik, He 
大 部 分 属于 与 翻译 、 核 糖 体 结构 和 生物 起 源 相 关 的 丁 功能 组 。 其 他 
酶 的 功能 组 属于 一 些 中 心 代谢 途径 , 如 糖 醇 解 、 戊 糖 磷酸 化 途径 、 
RNA 育 合 酶 、 蛋 白 折 革 和 分 泌 等 。 在 不 同 生物 的 酶 和 代谢 途径 中 
确认 这 些 特征 可 以 得 到 一 些 有 关 生 命 在 不 同 环境 下 生存 的 必要 条 
件 的 生物 化 学 信息 。 

最 适合 用 于 研究 感染 宿主 和 复制 所 需要 的 最 少 遗 传 物质 的 致 
病原 组 是 病毒 。 由 于 病毒 应 用 宿主 生物 细胞 内 的 功能 ， 所 以 它们 
并 非 复杂 系统 。 它 们 的 基因 组 很 明显 是 由 一 些 适应 性 的 必要 基因 
组 成 的 。 病 毒 的 适应 性 是 最 好 的 ， 但 又 是 独立 的 包含 最 小 基因 组 
的 最 小 生物 。 由 于 病毒 基因 组 非常 小 ， 所 以 在 完成 第 一 个 致 病菌 
H. influenzae 测序 很 早 以 前 ,病毒 的 基因 组 就 被 测序 了 。 哈 菌 体 
中 X174 的 基因 组 是 第 一 个 完成 测序 的 病毒 基因 组 。 其 DNA 序列 
包含 48, 502 个 碱 基 , 由 Frederick Sanger 小 组 于 1982 年 完成 , 4 
WH. influenzae 基因 组 测序 在 1995 年 完成 ， 包 含 一 百 七 十 万 个 
碱 基 。 


第 五 节 人 类 基因 组 计划 与 生物 信息 学 研究 


人 类 基因 组 计划 (HGP) 目的 之 一 ， 就 是 找到 人 类 基因 组 中 
的 所 有 基因 。 除 功能 克隆 和 定位 克隆 等 策略 之 外 ， 生 物 信息 学 为 
分 子 生物 学 家 提供 了 一 条 寻找 和 研究 新 基因 的 新 思路 ， 即 从 高 度 
自动 化 的 实验 出 发 , 经 过 数据 的 获取 与 处 理 、 序列 片段 的 拼接 、 可 
能 基因 的 寻找 、 基 因 功 能 的 预测 一 直到 基因 的 分 子 进 化 研究 。 这 


or TT peee =e tern te +- 


-une ne 


第 四 章 ”基因 组 分 析 *151* 


个 过 程 的 每 一 个 环节 ， 都 是 生物 信息 学 研究 的 重要 内 容 。 

一 、 高 度 自动 化 的 实验 数据 获得 、 加 工 和 整理 

如 何 将 实验 室 中 得 到 的 生物 学 信息 转化 为 计算 机 能 够 处 理 的 
数字 信息 ， 是 生物 信息 学 的 一 个 重要 课题 。 这 种 转化 更 多 地 体现 
在 各 种 自动 化 分 子 生物 学 仪器 的 使 用 上 ,如 DNA 测序 仪 .PCR 仪 
等 。 这 类 仪器 可 将 实验 所 得 的 物理 化 学 信号 转化 为 数字 信息 ， 并 
对 其 作 简单 的 分 析 ， 再 将 分 析 结 果 用 于 实验 条 件 的 控制 ， 完 成 高 
度 自 动 化 的 实验 过 程 。 从 事 大 规模 EST 测序 和 DNA 物理 图 谱 构 
建 的 实验 室 都 已 建立 起 高 度 自动 化 的 机 器 人 系统 来 完成 大 部 分 的 
实验 工作 。 

伴随 着 实验 过 程 的 高 度 自动 化 甚至 工厂 化 ， 从 事 大 规模 分 子 
生物 学 项 目的 实验 室 ， 每 天 需要 存储 的 数据 可 以 轻易 地 超过 几 千 
兆 字 节 。 这 样 大 的 数据 量 必须 用 专门 的 实验 室 数据 管理 系统 进行 
处 理 , 以 自动 完成 包括 实验 进程 和 数据 的 记录 、 常 规 数据 分 析 、 数 
据 质量 检测 和 问题 的 自动 查找 、 常 规 的 数据 说 明和 数据 输入 数据 
库 在 内 的 各 项 工作 。 由 于 不 同 实验 室 需 处 理 的 数据 类 型 各 不 相同 ， 
目前 各 个 实验 室 都 是 各 自 开 发 自己 的 系统 ， 还 没有 成 熟 的 可 用 于 
不 同 实验 室 的 分 子 生物 学 数据 管理 系统 。 但 随 着 测序 逐渐 成 为 实 
验 室 的 常规 工作 ， 对 这 种 系统 的 需求 会 越 来 越 大 ， 此 类 系统 的 发 
展 将 成 为 大 势 所 趋 。 

二 、 序 列 片段 的 拼接 

目前 , DNA 自动 测序 仪 每 个 反应 只 能 测序 500bp 左右 。 如 何 
将 这 些 序列 片段 拼接 成 完整 的 DNA 顺序 就 成 为 接 下 来 的 一 个 重 
要 工作 。 传 统 的 测序 技术 通常 将 克隆 进行 亚 克 隆 并 对 亚 克 隆 进行 
排序 。 这 些 工作 需要 大 量 的 人 力 物 力 。 现 在 生物 信息 学 提供 了 自 
动 而 高 速 地 拼接 序列 的 算法 , 即 根据 Lander-Waterman 模型 利用 
鸟 枪 法 进行 测序 ， 再 将 大 量 随机 测序 的 片段 用 计算 机 进行 自动 拼 
接 。 这 种 技术 不 仅 避 兔 了 亚 克 隆 排序 所 需 的 大 量 繁琐 的 工作 ， 还 
使 序列 具有 一 定 的 元 余 性 以 保证 序列 中 每 个 碱 基 的 准确 性 。 
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序列 拼接 算法 的 进一步 发 展 ， 需 要 在 以 下 方面 进行 改进 ， 
(1) 将 已 知 的 基因 组 知识 应 用 于 拼接 算法 ， 以 进一步 提高 拼接 真 
核 基因 组 的 有 效 性 。(2〉 自动 处 理 自动 测序 造成 的 差错 ， 特 别 是 
对 有 差错 倾向 的 EST 序列 更 是 如 此 。 

三 、 基 因 区 域 的 预测 

在 完成 序列 的 拼接 后 , 我 们 得 到 的 是 很 长 的 DNA 序列 , 甚至 
可 能 是 整个 基因 组 的 序列 .这 些 序列 中 包含 着 许多 未 知 的 基因 ,下 
一 步 就 是 将 基因 区 域 从 这 些 长 序列 中 找 出 来 。 

所 谓 基 因 区 域 的 预测 ， 一 般 是 指 预测 DNA 顺序 中 编码 蛋白 
质 的 部 分 ， 即 外 显 子 部 分 。 不 过 目前 基因 区 域 的 预测 已 从 单纯 外 
显 子 预测 发 展 到 整个 基因 结构 的 预测 。 这 些 预测 综合 各 种 外 显 子 
预测 的 算法 和 人 们 对 基因 结构 信号 (如 TATA box 和 加 尾 信 和 号) 
的 认识 ， 预 测 出 可 能 的 完整 基因 。 

在 介绍 算法 之 前 ,我 们 先 介绍 一 下 稀 量 一 个 算法 优 劣 的 标准 ， 
敏感 性 (sensitivity) 和 特异 性 〈specificity)。 假 设 待 测序 列 中 有 
M1 条 序列 是 基因 序列 , 剩余 的 M2 条 为 非 基 因 序 列 。 我 们 用 程序 
对 待 测序 列 进行 预测 ,N 条 序列 被 预测 为 基因 ,其 中 有 N1 条 确实 
为 基因 ,其 余 N2 条 不 是 基因 的 一 部 分 .敏感 性 定义 为 NI/Ml , 它 
表示 程序 预测 的 能 力 。 其 特异 性 定义 为 N1/N, 它 表示 预测 结果 的 
可 信 度 。 人 敏感 性 和 特异 性 往往 是 一 对 矛盾 ， 一 般 以 敏感 性 和 特异 
性 的 平均 值 作为 评判 程序 优 劣 的 标准 。 

预测 外 显 子 的 基本 算法 ， 早 期 有 最 长 ORF (open reading 
frame) 法 。 在 细菌 基因 组 中 ， 蛋 白质 编码 基因 从 起 始 密码 ATG 
到 终止 密码 平均 有 1000bp， 而 长 于 300bp 的 ORF 平均 每 36kb 
才 出 现 一 次 。 所 以 只 要 找 出 序列 中 最 长 的 ORF (> 300bp) 就 能 
相当 准确 地 预测 出 基因 。 核 苷 酸 语汇 (nucleotide words， 即 数 个 
连续 核 苷 酸 的 排列 ) 选用 频率 的 统计 差异 也 被 用 来 区 别 编码 和 非 
编码 区 域 。 这 种 差异 可 能 来 自 编码 和 非 编 码 区 密码 子 选用 的 差异 
和 周期 特征 的 差异 ,其 中 一 个 显著 的 特征 是 6 AT RA GEH AERE S 
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在 目前 的 各 种 预测 程序 中 这 是 一 种 被 广泛 应 用 的 方法 。 近 年 来 同 
源 比较 算法 也 被 应 用 于 预测 可 能 的 基因 。 许多 基因 预测 的 程序 都 
已 经 整合 了 同 源 比 较 算法 ， 比 如 著名 的 GRAIL 程序 。 

除 上 述 提 到 的 算法 之 外 ,目前 被 应 用 于 基因 预测 的 算法 还 有 : 
法 则 系统 ( rule-based system); HA Æ (linguistic) 系统 ; 线性 
判别 分 析 (Linear Discriminant Analysis, LDA); 决 策 树 (decision 
tree); spliced alignment 算法 ; AIH 4) 9r (Fourier analysis) 等 。 

综合 以 上 算法 和 人 们 对 基因 结构 信号 知识 的 基因 预测 程序 已 
有 不 少 。 其 中 有 的 对 编码 序列 的 预测 准确 率 高 达 90% 以 上 , 并 且 
在 敏感 性 和 特异 性 之 间 取 得 了 很 好 的 平衡 。 

四 、 基 因 功 能 预测 

用 实验 手段 证 实 一 个 预测 的 新 基因 后 ， 下 一 步 要 做 的 就 是 寻 
找 这 个 基因 的 功能 。 生 物 信 息 学 为 此 提供 了 一 系列 方法 ， 使 我 们 
的 研究 能 够 有 的 放 矢 。 

l. 序列 同 源 比 较 

序列 同 源 比较 往往 是 得 到 新 基因 后 预测 其 功能 的 第 一 步 。 通 
过 同 源 比 较 来 预测 基因 功能 是 基于 这 样 一 个 假设 : 如 果 基 因 A 与 
基因 B 有 相当 的 同 源 性 ， 那 么 基因 A 可 能 具有 类 似 基 因 B 的 功 
能 。 利 用 同 源 比较 算法 ,将 待 检 测 的 新 基因 序列 在 DNA 和 蛋白质 
序列 数据 库 中 进行 同 源 搜索 后 ， 我 们 可 以 得 到 一 系列 与 新 基因 同 
源 性 较 高 的 基因 或 片段 。 这 些 基 因 和 片段 的 已 知 的 功能 信息 就 为 
进一步 研究 新 基因 功能 提供 了 具有 相当 参考 价值 的 导向 。 

2. 同 源 比较 的 发 展 方向 

用 于 将 序列 在 序列 数据 库 中 进行 同 源 比较 的 3 种 流行 的 算 
法 : Smith-Waterman 算法 、FASTA 和 BLAST 算法 。 它 们 有 各 
自 的 优 缺 点 。 面 对 飞速 增加 的 数据 库 数据 ， 如 何 同 时 获得 高 敏感 
性 和 高 速度 仍然 是 一 个 课题 。 

同 源 比较 算法 中 另 一 个 需要 继续 发 展 的 方面 是 同 源 比较 算法 
中 使 用 的 计 分 矩阵 的 完善 ， 特 别 是 间隔 的 计 分 方法 的 研究 。 研 究 
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证 明 ， 使 用 更 好 的 计 分 和 矩阵 能 够 使 算法 的 敏感 性 显著 提高 。 

需要 解决 的 男 一 个 问题 是 目前 数据 库 中 部 分 数据 的 元 余 度 太 
高 。 特 别 是 EST 数据 库 , 某 些 基因 甚至 有 数 千 条 EST 与 之 对 应 。 
所 以 对 数据 库 进 行 同 源 检索 所 得 到 的 结果 可 能 是 一 大 堆 无 用 的 信 
息 淹没 了 有 用 的 信息 。 这 个 问题 可 以 通过 屏蔽 掉 检索 序列 中 的 重 
复 顺 序 ， 或 清除 数据 库 中 元 余数 据 的 方法 得 到 部 分 的 解决 。 

3. 寻找 蛋白 质 家 族 保守 顺序 

通过 同 源 检索 ， 我 们 可 能 推测 待 检 的 新 基因 是 某 个 蛋白 质 家 
族 的 新 成 员 ， 下 一 步 就 是 寻找 新 基因 中 包含 的 该 蛋白 质 家 族 的 保 
守 序 列 。 这 样 ， 也 就 为 进一步 深入 地 研究 其 功能 作 好 了 准备 。 

多 序列 同 源 比较 , 或 称 为 多 序列 对 齐 (multiple-sequence 
alignment)， 是 将 多 个 序列 进行 同 源 比 较 以 发 现 其 共同 的 结构 特 
征 的 方法 ,被 广泛 用 来 寻找 基因 家 族 或 蛋白 质 家 族 中 的 保守 部 分 。 
Feng-Doolittle 算法 是 较 常用 的 多 序列 对 齐 算法 .其 他 的 新 算法 包 
括 HMM 方法 ，Gibbs sampling 以 及 处 理 多 结构 域 蛋白 质 家 族 的 
算法 。 由 于 保守 部 分 往往 与 家 族 成 员 的 功能 密切 相关 ， 所 以 通过 
这 些 方法 建立 蛋白 质 家 族 数 据 库 ， 能 够 帮助 科学 家 更 好 地 认识 基 
因 的 功能 。 这 些 数 据 库 可 以 帮助 我 们 把 新 基因 所 属 的 蛋白 质 家 族 
及 其 保守 部 分 找 出 来 ， 并 提供 这 个 家 族 其 他 成 员 的 结构 和 功能 信 
息 。 

4. 蛋白 质 结构 的 预测 

有 时 一 个 可 能 的 新 基因 通过 同 源 检索 找 不 到 任何 同 源 基 因 。 
这 种 序列 就 称 为 “孤儿 ”基因 。 生 物 信 息 学 也 提供 一 些 预 测 孤儿 
基因 功能 的 方法 。 这 就 是 通过 基于 结构 的 同 源 比较 (structure- 
structure alignment) 寻找 结构 同 源 的 基因 或 直接 预测 其 高 级 结构 
来 推测 其 可 能 的 功能 。 有 许多 蛋白 质 高 级 结构 数据 库 提供 结构 同 
源 比 较 的 检索 。 另 一 方面 ， 直 接 预 测 基因 产物 的 高 级 结构 的 算法 
现在 已 经 有 不 少 ， 然 而 ， 由 于 蛋白 质 的 折 又 结构 实在 太 复杂 ， 使 
得 计算 最 佳 构象 非常 困难 。 如 果 结 构 生 物 学 在 这 方面 的 研究 能 够 
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有 所 突破 ,无 疑 将 大 大 推动 基因 功能 的 预测 。 
5. 分子 进 化 的 研究 
通过 上 述 种 种 方法 我 们 可 以 预测 出 一 个 新 基因 可 能 具有 的 功 
能 。 然 而 预测 新 基因 只 是 生物 信息 学 研究 的 一 个 方面 ， 这 门 学 科 
的 根本 目标 是 探究 隐藏 在 生物 数据 后 面 的 生物 学 知识 。 对 于 基因 
组 研究 来 说 ， 一 个 重要 的 研究 方向 就 是 分 子 序列 的 进化 。 通 过 比 
较 不 同 生 物 基因 组 中 各 种 结构 成 分 的 异同 ， 可 以 大 大 加 深 我 们 对 
生物 进化 的 认识 。 这 些 研究 已 逐步 形成 一 个 称 为 比较 基因 组 学 的 
新 学 科 。 从 各 种 基因 结构 与 成 分 的 进化 ， 密 码 子 使 用 的 进化 ， 到 
进化 树 的 构建 ， 各 种 理论 上 和 实验 上 的 课题 都 等 待 生物 信息 学 家 
的 研究 。 
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一 般 认为 上 世纪 90 年 代 是 基因 组 的 十 年 ,而 新 世纪 的 头 十 年 
将 成 为 蛋白 质 组 学 快速 发 展 的 十 年 。 利 用 蛋白 质 组 学 技术 生成 的 
定量 表达 数据 第 一 次 可 以 在 规模 和 敏感 性 上 与 基因 水 平 相 媲 美 。 
这 个 进展 对 于 我 们 理解 人 类 健康 和 疾病 的 细胞 组 成 结构 以 及 对 药 
物 、 农 业 和 生物 技术 等 有 着 重要 的 意义 。 确 实 ， 蛋 白质 组 学 业已 
在 大 范围 应 用 中 产生 了 重要 发 现 。 

随 着 双向 电泳、 质谱 以 及 不 同 研究 方法 核心 技术 的 改进 ， 蛋 
白质 组 学 保持 着 持续 快速 的 进步 ， 完 全 注释 的 蛋白 质 组 学 数据 库 
现在 在 一 些 领域 已 经 出 现 了 ， 并 为 系统 研究 提供 了 一 个 平台 ， 在 
临床 应 用 诸如 心血 管 和 肿瘤 学 中 尤其 有 发 展 前 途 ， 在 蛋白 质 水 平 
上 的 大 规模 定量 研究 也 正 变 为 现实 。 


第 一 节 蛋白 质 组 学 


大 部 分 数据 库 由 基因 、 基 因 组 和 和 蛋白质 序 列 组 成 。 在 单 细胞 
生物 〈 如 细菌 和 酵母 ) 或 多 细胞 生物 〈 如 植物 和 动物 ) 中 ， 核 酸 、 
蛋白 、 脂 类 和 碳水 化 合 物 这 些 大 分 子 作为 细胞 的 结构 并 行使 功能 ， 
但 如 何在 一 起 起 作用 的 机 制 还 不 清楚 .而 且 mRNA 是 蛋白 质 生物 
合成 的 中 介 分 子 ,mRNA 的 水 平 代表 基因 表达 水 平 。 因 此 ,mRNA 
序列 被 用 于 建立 EST (expressed sequence tags， 表 达 序 列 标签 ) 
数据 库 . 然 而 ,细胞 mRNA 表达 量 并 非 蛋白 质 表达 量 的 可 靠 标志 。 
因此 ， 建 立 细胞 中 蛋白 表达 谱 至 关 重 要 。 这 不 仅 可 以 得 到 蛋白 表 
达 的 相对 数量 ， 而 且 可 以 得 到 其 存在 形式 。 翻 译 后 的 修饰 过 程 如 
糖 基 化 、 酰 基 化 、 辅 基 、 磷 酸化 或 水 解 等 影响 蛋白 质 活性 ， 所 有 


ALR ”蛋白 质 组 分 析 *157* 


这 些 过 程 都 可 以 控制 细胞 中 蛋白 质 的 活性 和 定位 。 

更 加 复杂 的 是 ， 在 细胞 周期 的 不 同时 段 、 细 胞 代谢 和 环境 应 
激 中 、 细 胞 间 信 号 传递 或 疾病 个 体 中 ， 细 胞 的 蛋白 质 组 成 和 翻译 
后 修饰 都 是 有 所 不 同 的 。 例 如 肿瘤 与 正常 组 织 相 比 ， 关 键 蛋 白质 
的 表达 和 活性 会 有 变化 。 由 于 这 些 蛋 白质 与 生长 控制 、 肿 瘤 发 生 
有 关 ， 正 常 时 应 当 停 止 分 裂 或 程序 性 死亡 CER) 的 细胞 
表现 为 失去 生长 控制 或 无 限制 倍增 。 

所 有 体 细胞 都 包含 了 全 部 基因 组 , 但 只 使 用 其 中 一 部 分 发 挥 
其 调节 活性 。 基 因 的 上 调和 下 调 对 细胞 的 发 育 非常 重要 ， 可 以 使 
单个 细胞 倍增 并 分 化 为 特殊 的 细胞 类 型 、 组 织 和 器 官 。 基 因 的 活 
性 谱 实 际 上 说 明了 细胞 控制 基因 产物 水 平 ， 并 使 之 表现 为 隐 性 或 
显 性 基因 的 过 程 .这 被 称 为 基因 剂量 效应 ,X 染色 体 相关 的 基因 在 
男性 只 有 一 个 拷贝 而 在 女性 则 为 双 拷贝 ,因此 有 很 多 的 研究 报道 。 
蛋白 质 的 表达 水 平 通常 影响 代谢 和 第 二 信使 的 途径 ， 因 此 经 常 被 
用 作 微 调控 制 系统 ,基因 剂量 效应 的 细胞 机 制 还 有 待 进一步 研究 。 

并 非 所 有 的 大 分 子 都 依赖 线性 模板 来 合成 ,实际 上 只 有 RNA 
和 蛋白质 这 两 种 分 子 的 合成 是 由 DNA. 编码 的 ， 而 其 它 所 有 的 细 
胞 内 活动 (包括 前 面 提 到 的 蛋白 修饰 ) 都 是 通过 分 子 间 相互 作用 、 
时 序 合 成 (Sequential synthesis) 和 空间 分 隔 (区 室 化 ) 来 完成 的 。 
不 依赖 基因 模板 的 一 个 很 好 的 大 分 子 例子 是 多 糖 和 蛋白质 、 脂 类 
的 糖 基 化 。 多 糖 (碳水 化 合 物 ) 以 线性 形式 存在 ， 也 可 以 是 分 支 
或 多 聚 体形 式 ， 多 聚 体 顺序 由 细胞 内 机 制 〈 蛋 白质 催化 碳水 化 合 
物 合成 ) 催化 形成 , 这 些 顺序 并 不 是 象 DNA 编码 蛋白 质 合成 那样 
由 其 他 线性 分 子 模板 来 编码 。 相 反 ， 多 糖 的 合成 是 一 个 顺序 的 催 
化 过 程 ， 是 由 细胞 内 酶 的 空间 排列 来 完成 的 。 多 糖 合 成 过 程 中 缺 
少 了 某 种 蛋白 质 可 以 使 这 个 过 程 发 生 障碍 ， 因 此 合成 多 糖 的 一 组 
酶 的 作用 并 不 是 独立 的 。 

了 解 酶 作用 途径 的 结构 组 成 非常 重要 。 对 于 新 发 现 的 基因 可 
以 在 不 同 种 属 之 间 比 较 单 个 基因 的 同 源 性 ， 而 且 可 以 比较 其 在 细 
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胞 整体 中 所 起 的 作用 ,但 有 一 些 问题 ， 如 : 是 否 在 不 同 种 属 间 所 
有 酶 作用 途径 都 相同 ?在 相同 的 酶 作用 途径 中 是 否 所 有 的 酶 都 有 
同 源 性 ? 某 一 种 酶 在 作用 途径 中 是 否 比 其 他 酶 更 重要 或 更 保守 ?是 
否 在 某 些 种 属 中 存在 一 些 与 其 它 种 属 不 同 的 酶 作用 途径 ? 这 些 问 
题 对 二 十 一 世纪 的 生物 学 是 真正 的 挑战 。 国 际 互 联网 (或 同样 形 
式 的 公共 交流 工具 ) 在 这 一 发 现 过 程 中 是 重要 的 工具 ， 它 可 以 提 
供 一 些 数据 库 ， 用 于 比较 细胞 或 生物 从 发 病 到 死亡 这 一 阶段 中 的 
蛋白 组 成 变化 、 代 谢 活性 以 及 功能 变化 。 

分 析 在 特定 状态 下 某 一 细胞 类 型 或 生物 所 有 的 蛋白 质 ， 这 是 
蛋白 质 组 学 (Proteomics) 这 门 新 学 科 的 任务 。 蛋白 质 组 学 的 目的 
是 分 析 不 同时 期 细胞 或 生物 体 蛋白 质 的 组 成 或 表达 情况 e 
明细 胞 体 进行 代谢 、 信 号 传导 和 网 络 调控 的 组 织 方式 和 动力 学 . 它 
的 基础 是 阐明 细胞 内 复杂 的 酶 作用 机 制 。 蛋 白质 组 学 这 个 词 的 含 
义 是 指 对 生物 体 中 决定 某 一 状态 的 所 有 的 蛋白 质 之 间 相 互 作用 的 
人 饶 究 。 明 确 这 些 相 互 作用 对 于 了 解 其 生物 学 信息 包括 进化 轨迹 非 
常 重要 。 

一 、 蛋 白质 组 学 研究 的 策略 和 技术 

蛋白 质 组 学 的 研究 涉及 到 的 特别 技术 主要 有 2D 电泳 和 质谱 
分 析 。2D 电泳 是 将 蛋白 在 多 聚 体 凝 胶 中 进行 二 维 电泳 , 其 中 一 个 
方向 是 蛋白 质 分 子 量 ， 另 一 个 方向 是 与 pH 值 相关 的 蛋白 质 所 带 
电荷 量 , 该 技术 称 为 二 维 凝 胶 电 泳 (2-D 胶 )。 它 可 以 用 于 比较 生 
物 生 命 周期 中 不 同时 期 的 蛋白 质 表达 基 及 其 修饰 情况 ， 它 可 以 比 
较 一 组 蛋白 与 男 一 组 蛋白 之 间 的 差异 。 二 维 凝 胶 电泳 的 优点 是 不 
仅 可 以 代替 研究 单个 蛋白 的 费时 费力 的 工作 ， 而 且 可 以 研究 同一 
时 间 表 达 的 蛋白 之 间 的 相互 间 关系 ， 进 一 步 可 以 把 这 种 相互 关系 
与 细胞 活性 联系 起 来 。 

由 于 许多 蛋白 在 二 维 胶 中 的 特性 还 不 了 解 (或 不 十 分 了 解 )， 
蛋白 质 组 学 仍然 是 一 个 艰难 的 工程 。 生 物化 学 家 最 耗费 时 间 的 工 
作 是 准确 地 确认 二 维 胶 上 每 一 个 点 的 蛋白 性 质 、 是 否 发 生 修饰 以 
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及 是 否 只 是 片段 。 正如 前 述 , 二 维 胶 显示 蛋白 质 的 两 部 分 信息 , 分 
子 量 大 小 和 电荷 。 这 两 个 物理 参数 值 取决 于 细胞 在 蛋白 分 离 和 纯 
化 那 一 时 刻 的 状态 。 利 用 DNA 序列 计算 得 到 的 蛋白 质 分 子 量 并 
不 是 总 能 与 电泳 得 到 的 分 子 量 相符 ， 因 为 电泳 得 到 的 分 子 量 反映 
的 是 蛋白 在 凝 胶 基 质 中 的 可 溶性 和 泳 动 率 等 综合 情况 。 在 分 子 量 
方向 上 反映 的 泳 动 率 不 仅 依 赖 蛋白 质 真正 的 分 子 量 ， 而 且 更 能 准 
确 地 反映 出 蛋白 质 所 带电 荷 量 。 改 变 电 泳 系统 的 pH 值 可 以 引起 
蛋白 质 泳 动 率 的 变化 ,这 是 由 于 改变 了 蛋白 质 的 电荷 /分 子 量 的 比 
值 ， 并 非 所 有 分 子 量 相同 的 蛋白 质 都 具有 相同 的 电荷 /分 子 量 比 
值 。 精 确 地 确认 凝 胶 上 蛋白 质 分 子 量 和 序列 对 于 解释 电泳 结果 非 
HEE. 

蛋白 质 组 学 研究 中 应 用 的 另 一 项 重要 技术 是 质谱 分 析 。 质 谱 
技术 的 原理 在 于 产生 不 同 大 小 的 气 化 的 样品 离子 ， 并 根据 不 同 离 
子 间 的 质量 /电荷 比 的 差异 来 确定 分 子 量 及 分 子 结构 。 通 常 质谱 仪 
由 进 样 装 置 、 离 子 化 源 、 质 量 分 析 器 、 离 子 检测 器 和 数据 分 析 系 
统 等 组 成 .传统 的 质谱 仪 通过 加 温 蒸 发 方式 将 小 分 子 物质 离子 化 ， 
只 能 检测 相对 分 子 质量 在 几 千 道 尔 顿 左右 的 分 子 , 对 生物 大 分 子 、 
非 挥发 性 物质 和 热 不 稳定 物质 则 无 法 检测 。 近 年 来 ， 以 电 喷雾 电 
BS (electrospray ionization, ESI) 和 基质 辅助 激光 解析 离子 化 
(matrix-assisted laser desorption ionization mass spectrometry, 
MALDI-MS) 为 代表 的 软 电离 技术 的 发 展 , 将 质谱 的 灵敏 度 和 高 
质量 检测 范围 提高 到 fmol (107 mol) 以 上 的 水 平 , 检测 的 相对 分 
子 量 可 高 达 几 十 万 道 尔 顿 的 生物 大 分 子 。 从 而 开拓 了 质谱 学 一 个 
崭新 的 领域 一 生物 质谱 。 

电 喷 和 雾 电 离 ESD 利用 位 于 毛细 管 和 质谱 仪 进口 间 的 电势 
差 ， 直 接 从 液 相 物 质 生成 单价 或 多 价 离子 。 样 品 在 电场 的 作用 下 
成 为 以 喷雾 形式 存在 的 带电 液 滴 ， 并 通过 干燥 气体 或 加 热 ， 使 溶 
剂 阁 发 ， 最 后 形成 气相 离子 ， 然 后 通过 质量 分 析 器 分 析 离 子 的 质 
量 /电荷 比 。ESI 的 优势 在 于 可 以 方便 地 与 分 离 技术 〈 如 : EAT 
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区 带电 泳 ) 联 用 。 MALDI-MS 以 有 紫外 吸收 的 小 分 子 晶体 作为 基 
质 , 样品 与 基质 结合 后 , 用 特定 波长 的 激光 照射 基质 会 迅速 升温 ， 
样品 和 基质 迅速 气 化 。 在 气态 下 样品 与 基质 反应 而 离子 化 ， 在 静 
电 作用 下 直接 引入 质量 分 析 器 。MALDI-MS 最 大 的 优点 在 于 可 
以 直接 分 析 混合 物 ,这 是 由 于 MALDI 主要 生成 单 电荷 离子 ,质谱 
图 中 的 谱 带 与 混合 物 中 不 同 蛋白 质 和 基质 之 间 存 在 对 应 关系 ， 适 
用 于 糖 蛋白 和 蛋白 酶 消化 产物 的 分 析 ， 在 蛋白 质 组 研究 中 特别 有 


用 。 


人 红 白 血 病 细胞 的 二 维 疑 胶 电 泳 图 OR B hip: //www. 
expasy. ch/ cgi-bin/map2/) ,点 击 其 中 标记 红色 的 点 可 以 显 
示 该 点 代表 的 蛋白 信息 ， 并 显示 它 在 其 他 细胞 或 组 织 二 维 
凝 胶 电泳 图 的 位 置 . X 输 为 pH 值 ，Y 轴 为 分 子 量 ， 
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现代 自动 分 析 系 统 有 助 于 大 规模 地 确认 2D 凝 胶 中 的 蛋白 点 
(图 5-1)。 目 的 蛋白 可 以 在 凝 胶 介质 中 消化 , 提取 得 到 的 多 肽 并 加 
入 高 质量 精确 的 MALDI-MS (基质 辅助 的 激光 解析 离子 化 质谱 ) 
来 分 析 。 这 里 肽 段 被 离子 化 并 可 以 确定 其 电荷 /质量 比 ， 将 质量 / 
电荷 比率 与 可 能 的 氨基 酸 序 列 相配 对 。 如 果 配 对 结果 模棱两可 , 则 
将 肽 段 进 行 微 测 序 , 并 用 BLAST 工具 与 数据 库 进行 同 源 性 比较 。 
如 果 从 一 个 二 维 凝 胶 点 中 得 到 的 许多 肽 有 段 都 与 数据 库 〈 如 
GenBank) 中 的 一 个 序列 相配 ,那么 就 可 以 成 功 地 确认 相应 于 这 个 
点 的 蛋白 质 了 (图 5-2) 。 


凝 胶 内 消化 和 多 肽 提取 


高 质量 精确 的 MALDI 一 MS 分 析 


| 


蛋白 点 确认 


| 
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序列 用 于 数据 库 检索 
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如 果 是 新 蛋白 的 话 ， 再 次 测序 并 设计 宅 核 苷 酸 探 针 用 于 后 续 克 隆 


图 5-2 从 二 维 凝 胶 电泳 中 确认 蛋白 质 的 策略 
由 于 肽 段 有 可 能 被 化 学 修饰 ， 所 以 配对 并 非 容易 作 到 。 细 胞 
中 的 这 些 翻译 后 修饰 通常 控制 着 蛋白 的 活性 。 这 些 修 饰 可 影响 蛋 
白质 的 净 电 荷 、 活 性 和 可 溶性 。 磷 酸化 这 种 修饰 方式 可 以 给 蛋白 
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加 入 负电 荷 ， 进 而 影响 了 电泳 中 的 泳 动 率 。 单 个 负电 荷 的 引入 对 
泳 动 率 的 影响 相当 于 减少 2KD 的 蛋白 质 分 子 量 , 大约 相 当 于 减少 
15-18 个 不 带电 荷 的 氨基 酸 。 糖 基 化 也 影响 蛋白 质 的 分 子 量 , 但 并 
不 一 定 受 pH 值 的 影响 。 因 为 有 多 种 修饰 以 相似 的 方式 来 影响 蛋 
白 的 泳 动 性 ， 所 以 在 二 维 凝 胶 中 分 析 蛋 白质 细小 的 泳 动 性 差异 并 
非 易 事 ， 这 需要 细致 的 生物 化 学 分 析 。 

在 近 几 年 ， 肽 段 确认 的 全 过 程 已 经 实现 了 自动 化 。 自 动 化 过 
程 需要 特殊 的 机 器 人 设备 以 及 专业 软件 。 计 算 机 在 自动 化 控制 和 
分 析 过 程 中 扮演 着 中 心 角色 。 一 个 自动 收集 器 能 收集 从 高 压 液 相 
色谱 中 按 分 子 量 大 小 分 离 的 肽 段 样品 ， 极 少量 样品 加 入 毛细 管 柱 
中 ,经 过 纳米 电 喷 离子 化 后 用 于 质谱 分 析 。 分 别 用 于 实验 和 预测 
的 质谱 ， 可 产生 相关 的 交叉 数据 以 确认 提取 肽 段 的 序列 。 如 果 来 
自 一 个 二 维 凝 胶 点 的 几 个 片段 都 与 数据 库 中 的 某 个 氨基 酸 序列 相 
符 ， 一 个 蛋白 就 可 以 确认 了 。 

二 、EXPASY 的 二 维 聚 丙烯 酰胺 凝 胶 电 泳 数据 库 

细胞 的 蛋白 质 组 分 析 的 第 一 步 是 比较 经 激活 剂 刺激 细胞 后 
(例如 用 胰岛 素 作用 于 肝 细 胞 ) 和 未 受 刺激 的 细胞 提取 物 的 二 维 电 
泳 图 。 许 多 公共 数据 库 包含 了 一 些 初 步 确认 的 新 蛋白 质 的 分 子 量 
和 电荷 的 二 维 凝 胶 信息 ， 并 且 新 蛋白 质 的 数量 逐渐 增多 。 公 共和 蛋 
白质 组 数据 库 SWISS-2DPAGE (http://www. expasy.ch) 由 瑞 
士 日 内 瓦 大 学 医院 建立 。 该 数据 库 的 目的 之 一 是 在 功能 水 平 上 通 
过 直接 研究 基因 产物 和 相应 的 翻译 后 修饰 来 理解 生命 体 的 相关 机 
制 。 该 站 点 可 以 通过 交互 方式 获得 二 维 凝 胶 数据 库 ， 提 供 在 线 帮 
助 和 二 维 凝 胶 电 泳 的 技术 手册 。 送 去 的 样品 可 获得 二 维 凝 胶 电泳 
服务 ， 另 外 还 提供 培训 课程 〈 非 在 线 服务 ) 和 分 析 二 维 凝 胶 电 泳 
结果 的 软件 包 。 

Expasy 的 二 维 凝 胶 电 泳 数据 库 包 含 了 多 种 组 织 和 生物 的 电 
泳 信息 , 目前 公布 的 版 本 SWISS-2DPAGE Release15. 0 中 包含 了 
KA 33 个 参考 图 谱 的 861 个 条 目 。 来 源 包 括 酵 母 、 大 肠 杆菌 、 
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Dictyostelium、 拟 南 芥 、 以 及 多 种 类 型 的 人 类 组 织 和 细胞 (血小板 、 
红细胞 、 巨 叹 细 胞 、 血 浆 蛋 白 、 淋 巴 瘤 、 肝 、 肾 、 两 种 白血病 细 
胞 系 、 脑 脊 液 、 结 肠 上 皮 细 胞 、 结 肠 腺 癌 细 胞 系 (DL-1)、HepG2 
蛋白 和 HepG2 分 泌 蛋 白 等 ), 还 有 多 种 类 型 的 小 鼠 组 织 。 已 知 蛋 白 
可 以 用 SWISS-PROT 的 序列 号 查询 ， 还 可 以 直接 点 击 二 维 凝 胶 
图 中 标记 的 点 来 查询 。 如 果 新 蛋白 的 氨基 酸 序列 已 知 ， 其 预测 的 
电泳 位 置 可 以 确定 。 假 定 的 蛋白 分 子 量 和 电荷 可 以 帮助 我 们 在 凝 
胶 中 定位 蛋白 质 ， 然 而 蛋白 质 在 凝 胶 中 的 溶解 性 和 氨基 酸 的 翻译 
后 修饰 经 常 使 其 理论 值 和 实验 值 不 同 ， 这 一 点 要 在 二 维 凝 胶 电 泳 
分 析 中 重点 强调 。 由 于 上 述 原因 ， 许 多 蛋白 在 二 维 凝 胶 电 泳 中 可 
以 产生 多 个 点 ， 这 个 信息 对 于 生化 学 家 分 析 细 胞 内 环境 中 蛋白 质 
的 功能 非常 重要 。 

经 过 研究 ， 人 们 发 现 电 泳 图 谱 中 大 部 分 位 点 与 任何 已 知 蛋白 
并 不 相关 。 在 二 维 凝 胶 中 更 快 地 确认 蛋白 质 的 新 技术 正在 开发 之 
中 。 用 于 肽 段 微 测 序 和 质谱 研究 的 生化 分 析 手 段 与 核酸 文库 的 测 
序 方法 非常 相似 。 

一 旦 某 种 细胞 或 生物 的 某 种 蛋白 质 被 确认 ， 就 可 以 与 其 它 种 
类 的 细胞 或 组 织 进行 比较 ， 也 就 有 可 能 揭示 相互 间 不 同 表达 水 平 
或 翻译 后 不 同 的 修饰 方式 。 当 然 ， 用 这 种 方法 比较 蛋白 质 的 表达 
水 平 并 不 是 二 维 凝 胶 电泳 很 重要 的 一 项 功能 。 蛋 白质 在 凝 胶 中 的 
泳 动 行为 主要 依赖 其 纯化 方法 、 来 源 和 电泳 程序 。 对 各 个 位 点 相 
对 位 置 和 强度 的 细致 描述 可 用 来 比较 不 同 的 电泳 结果 。SWISS- 
2DPAGE 提供 了 一 个 分 析 软 件 包 , 它 可 以 进行 快速 图 象 处 理 和 全 
二 维 分 析 ， 为 全 世界 的 研究 者 提供 参考 ; 它 能 完成 自动 二 维 凝 胶 
配对 和 比较 。(Melanie II 2D 分 析 软 件 , 由 日 内 瓦 Melanie 小 组 的 
Denis Hochstrasser Jf $, http://www. expasy. ch/melanie/ 
Melaniell/description. html), LA FÆ Melanie II 的 特征 : 

快速 图 象 处 理 : 

* 图 象 放大 缩小 
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' 滤 镜 功能 (图 象 平 滑 、 对 比 度 增强 、 背 景 消减 ) 
+ 凝 胶 翻 转 
* 凝 胶 堆积 (以 利于 图 象 更 好 地 显示 ) 
+ 图 象 伸展 
全 二 维 凝 胶 分 析 : 
“自动 点 确认 和 分 析 
' 高 斯 点 建 模 
: ERB OR 
* 即 点 即 现 的 界面 
， 内 建 的 标尺 
* 等 电 点 /分 子 量 设 定 
* 丰富 的 报告 
‘HAA 
+ 统计 数据 分 析 
全 球 的 电泳 图 比较 : 
+ KT BOB SOR 
* 快速 、 自 动 凝 胶 比 较 和 配对 
* 对 其 它 凝 胶 比较 提供 参考 凝 胶 数据 
* 合并 一 套 凝 胶 产生 综合 凝 胶 
* FH SWISS-2DPAGE 来 管理 凝 胶 数据 
* 通过 Expasy 网 络 提供 与 其 他 生物 学 数据 库 的 超 链 接 ， 
如 : SWISS-2DPAGE 和 SWISS-PROT 数据 库 。 
* World Wide Web 服务 器 
数据 输入 /输出 : 
+ 凝 胶 打印 
+ MA TIFF 或 PPM 图 象 输入 /输出 
“数据 输出 到 Excel 或 其 它 应 用 程序 
* 数据 以 Melanie I 格式 输出 到 公共 统计 和 探索 分 类 程序 。 
三 、 其 它 的 二 维 凝 胶 电 泳 数据 库 


GRR ”蛋白 质 组 分 析 “165。 


有 两 个 特殊 蛋白 质 组 数据 库 ， 可 用 来 比较 与 毒素 和 异种 生物 
相关 的 蛋白 质 表 达 谱 :1、 位 于 Oxford’s Glycosciences 的 哮 齿 类 动 
物 分 子 效应 数据 库 (Rodent Molecular Effects Database); 2、 位 
于 Human Genome Research 丹麦 中 心 的 角 化 细胞 数据 库 
Chttp://biobase. dk/cgi-bin/celis ), Ja # E HE HE A MR 
(knockout) 和 转基因 动物 的 数据 , 3 PIE REIR RR PE DR oh HM 
就 是 使 特异 基因 失 活 或 将 基因 加 入 到 动物 胚胎 干细胞 中 。 基 因 功 
能 的 失 活 和 表达 需要 在 二 维 凝 胶 电 泳 中 观察 其 蛋白 质 水 平 上 特异 
信和 号 的 缺失 或 出 现 。 例如, 美国 ESA 公司 的 神经 系统 疾病 数据 库 
就 是 通过 蛋白 质 差异 显示 的 方法 来 研究 阿尔 茨 海 默 病 、 帕 金森 氏 
病 和 Huntington’s 病 。 

酵母 蛋白 组 学 数据 库 (Yeast Proteome Database, YPD) 是 
蛋白 质 组 公司 (Proteome Inc. ) (www. proteome. com) 建立 的 ， 
这 是 企业 涉足 蛋白 质 组 学 研究 的 例子 。 它 将 现存 的 大 量 文献 组 合 
成 一 种 特殊 的 形式 , 包含 有 啤酒 酵母 (Saccharomyces cerevisiae) 
的 所 有 蛋白 质数 据 ， 啤 酒 酵母 的 基因 组 测序 已 于 1997 年 完成 。 

YPD 是 关于 酵母 已 知 蛋白 和 酵母 基因 组 计划 预测 蛋白 信息 
的 百科 全 书 , 这 些 信息 与 蛋白 质 的 基本 生物 物理 和 功能 数据 相关 ， 
包括 : 用 质谱 分 析 得 到 的 蛋白 质 分 子 量 、 从 基因 组 序列 中 预测 的 
氨基 酸 序列 以 及 文献 中 报道 的 蛋白 质 功能 等 。 目 前 ， 数 据 库 中 已 
有 约 30 个 新 的 酵母 蛋白 质 的 信息 特征 在 不 同 水 平 上 得 到 明确 , 和 
3000 多 个 部 分 信息 特征 〈 主 要 指 含有 多 少 ORFs 和 URFs) 明确 
的 蛋白 质 。 另 外 ， 还 包括 了 一 些 同 源 性 的 信息 。 例 如 ， 酵 母 与 人 
类 蛋白 的 同 源 性 等 。 把 酵母 作为 模式 生物 来 研究 在 人 类 代谢 、 生 
理 过 程 中 与 酵母 作用 相似 的 蛋白 质 ， 所 得 到 信息 非常 重要 。YPD 
收录 的 数据 和 二 维 凝 胶 图 总 体 上 包括 了 来 自 质谱 分 析 的 分 子 量 信 
息 、 来 自 氨 基 酸 序列 的 电荷 和 化 学 修饰 信息 以 及 大 部 分 文献 报道 
的 功能 信息 。 

蛋白 质 组 公司 还 提供 了 人 类 蛋白质 组 监测 数据 库 
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HumanPSD,G 蛋白 偶 联 受 体 蛋白 质 组 数据 库 GPCR-PD、 线 虫 C. 
elegans 蛋白 质 组 数据 库 WormPD, BEY S. pombe 蛋白 质 组 数据 
库 PombePD 和 人 类 致 病原 真菌 数据 库 MycoPathPD。 


第 二 节 ”代谢 通路 的 重建 


一 ,京都 基因 、 基 因 组 百科 全 书 一 KEGG (Kyoto Encyclopedia 
of Genes and Genomes) 

建立 京都 基因 、 基 因 组 百科 全 书 (KEGG) 的 目的 之 一 是 试图 
提供 一 种 利用 计算 机 模拟 细胞 中 分 子 信号 途径 的 方法 。KEGG 是 
日 本 京都 大 学 化 学 研究 所 日 本 人 类 基因 组 计划 的 一 个 组 成 部 分 
(http://www. genome. ad. jp:80/kegg/)。KEGG 的 基础 结构 与 
NCBI 网 站 相同 , 因此 它 面临 的 技术 挑战 也 非常 大 。 KEGG 收录 有 
关 代 谢 过 程 中 的 分 子 间 相互 作用 的 信息 ， 其 目的 是 有 利于 寻找 现 
代 分 子 生 物 学 一 些 普遍 问题 的 答案 ， 诸 如 基因 序列 和 和 蛋白 质 功能 
之 间 的 关系 、 细 胞 内 和 蛋白质 折 秋 问题 、 功 能 重建 的 难题 、 基 因 组 
和 生物 中 有 关 发 育 和 形态 的 问题 。KEGG 的 目标 是 以 各 种 分 子 中 
不 同 成 分 之 间 的 关系 为 基础 建立 一 个 功能 图 谱 ， 这 个 功能 图 谱 显 
示 出 各 种 代谢 和 调节 途径 ， 来 源 于 基因 组 图 谱 、 碱 基 序 列 、 基 因 
的 物理 图 和 遗传 图 以 及 LIGAND 数据 库 (包括 酶 、 复合 物 及 其 组 
分 ) 的 各 种 分 子 。 

二 、 功 能 重建 模型 (The Functional Reconstruction Model) 

有 一 些 数据 库 和 研究 机 构 也 含有 与 KEGG 相似 的 信息 , 但 后 
者 有 一 点 显著 的 不 同 之 处 ， KEGG 还 包括 一 个 推断 数据 库 。 
KEGG 的 用 户 可 以 利用 基因 或 分 子 之 间 的 布线 图 来 估计 分 子 间 
的 转 导 途径 和 双方 的 关系 。 将 细胞 理解 为 一 个 复杂 的 、 可 以 自身 
装配 的 整体 ,这 样 利于 更 好 地 理解 细胞 中 不 同 组 分 之 间 的 关系 ,这 
就 是 功能 重建 模型 .正如 KEGG 里 描述 的 那样 : “基因 组 只 是 仓库 
的 一 部 分 ， 而 基因 组 中 所 有 的 调节 信号 也 只 是 编码 调节 的 一 个 小 
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部 分 。 以 这 个 观点 来 看 , 生命 的 蓝本 (Blueprint) 应 该 将 细胞 作为 
分 子 间 相互 作用 网 络 的 整体 来 书写 "为 了 更 好 地 理解 这 个 分 子 间 
相互 作用 的 网 络 ,KEGG 应 用 一 种 预测 工具 来 研究 这 个 “仓库 ”中 
单独 组 分 之 间 的 新 的 相互 关系 。 这 些 工 具 放 在 KEGG 的 “Search 
and compute with KEGG” 超 级 链接 中 。 

如 何 才 能 利用 数据 库 重建 一 种 “生物 系统 ”?KEGG 的 方法 是 
将 一 个 生物 分 出 层次 ， 最 简单 的 观点 是 将 其 分 为 原子 层次 、 分 子 
层次 和 网 络 ( 代 谢 途 径 ) 层次 。KEGG 利用 了 一 种 数据 呈现 系统 
(system for data representation) ， 这 种 系统 根据 整体 中 各 组 分 之 
间 联 系数 量 的 多 少 来 建立 数据 库 结构 。 

数据 库 目 录 的 组 成 成 分 包括 分 子 (蛋白 结构 、 代 谢 产 物 )、 基 
因 (序列 ) 和 基因 组 。 代 谢 途径 图 谱 通过 分 子 间 的 相互 关系 来 构 
建 数据 库 中 各 组 分 之 间 的 联系 ， 这 些 分 子 间 的 相互 关系 包括 分 子 
间 相 互 作用 〈 结 构 ) 和 遗传 学 相互 作用 (功能 )。 两 个 以 上 组 分 之 
间 的 相互 作用 ,包括 了 代谢 途径 〈 分 子 和 遗传 学 )、 基 因 组 (线性 
和 环 状 )、 分 层 (分 类 、 物 种 ) 和 相 邻 关 系 (序列 相似 性 、 结 构 相 
似 性 ), 因此 被 称 为 网 络 。 这 一 点 有 助 于 我 们 对 功能 重建 模型 的 理 
解 。 它 是 生物 信息 学 应 用 于 蛋白 质 组 学 研究 中 的 一 项 重要 内 容 。 

KEGG 以 反映 生物 学 实质 为 目的 , 介绍 了 细胞 内 基因 组 与 信 
号 途径 的 整 和 信息 。 这 样 ， 就 能 使 科学 家 可 以 将 模式 生物 作为 整 
w, 来 寻找 蛋白 质 或 基因 的 新 的 相关 信号 途径 ， 与 单独 研究 一 条 
信和 号 途径 的 方法 相 比 有 很 大 的 优点 。 对 于 一 个 分 子 来 说 ， 如 果 它 
与 某 个 结构 已 经 明确 的 蛋白 质 序列 同 源 ， 这 个 分 子 的 结构 信息 就 
可 以 预测 得 到 。 在 构建 好 的 功能 模型 窗口 ， 选 择 适当 的 生物 ， 输 
人 起 始点 底 物 和 代谢 终点 的 产物 来 分 析 ， 就 有 可 能 预测 出 新 的 信 
号 途径 。 

三 、 大 肠 杆 菌 代谢 数据 库 ， EcoCyc (E. Coli Metabolic 
Database) 


大 肠 杆菌 是 遗传 学 家 、 分 子 生物 学 家 、 微 生物 学 家 和 生化 学 
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家 在 实验 室 常用 的 工具 。 这 是 由 于 大 肠 杆 菌 具有 繁殖 快 、 易 于 操 
作 等 特点 ， 目 前 分 子 生 物 学 实验 室 中 使 用 的 大 肠 杆菌 菌株 的 遗传 
特性 都 已 经 研究 得 非常 透彻 。 实 际 上 ， 实 验 室 中 使 用 的 都 是 致 病 
性 非常 低 的 基因 工程 菌株 。 大 肠 杆菌 对 人 类 的 健康 和 生理 也 非常 
重要 ， 主 要 是 由 于 它 是 我 们 胃 肠 道中 的 重要 成 分 。 但 是 ， 大 肠 杆 
菌 也 是 人 类 致 病原 。 如 果 它 进入 了 人 的 血液 可 以 导致 致命 的 感染 ， 
许多 消化 道 的 疾病 也 是 由 于 大 肠 杆菌 污染 食品 造成 的 。 它 与 另 一 
致 病菌 一 沙门 氏 杆 菌 在 遗传 学 上 的 关系 非常 密切 。 因 此 ， 了 解 大 
肠 杆菌 的 代谢 、 遗 传 和 致 病因 子 等 信息 就 是 一 个 非常 紧要 的 问题 。 

EcoCyc 由 Pangea Systems 公司 制作 (http: //www. 
pangeasystems. com), 其 内 容 包 括 了 大 肠 杆菌 全 基因 组 序列 信息 
和 经 典 生 化 代谢 途径 的 整 和 信息 。 例 如 : 大 肠 杆菌 中 氨基 酸 合成 
代谢 途径 由 几 种 酶 参与 ， 它 们 共同 调节 基因 表达 水 平 。 因 此 敏感 
的 蛋白 质 组 学 技术 应 当 能 在 电泳 点 中 同时 看 出 几 种 蛋白 质 的 迁 
移 ， 而 不 只 是 一 种 蛋白 质 的 迁移 。 

与 KEGG 相似 ,EcoCye 应 用 了 化 学 复合 物 数据 库 , 其 中 列 出 
了 参与 生物 学 反应 的 分 子 及 其 分 子 量 ， 并 包括 了 大 部 分 分 子 的 化 
学 结构 。 


EcoCyc KB 有 几 种 用 途 .对 于 研究 大 肠 杆菌 和 相关 微生物 的 生物 学 家 来 
说 , 它 是 一 个 电子 参考 文献 来 源 , 科学 家 在 这 里 可 以 看 到 大 肠 杆 菌 染 色 体 中 
基因 的 排列 、 单 个 生物 化 学 反应 或 完整 的 生化 途径 (同时 可 显示 复合 物 的 结 
构 ) ,用户 可 以 用 浏览 器 从 一 种 酶 链接 到 这 种 酶 所 催化 的 反应 ,或 者 编码 该 酶 
的 基因 。 网 络 界面 还 支持 各 种 查询 , 例如 : 可 以 显示 某 一 生化 途径 中 所 有 基 
因 的 作 图 位 点 。 

除了 作为 电子 参考 文献 来 源 的 功能 外 ，EcoCye 还 可 以 进行 与 代谢 相关 
的 复杂 计算 , 例如 : 为 生物 技术 设计 新 的 生化 途径 , 研究 代谢 途径 的 进化 或 
模仿 代谢 途径 。EcoCyc KB 还 支持 建立 在 计算 机 平台 上 的 生物 化 学 教育 


(http: //ecocyc. doubletwist. com/) 。 
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大 肠 杆菌 代谢 数据 库 提 供 了 大 量 的 信息 ， 易 于 在 PC 终端 上 
获得 。 到 2001 年 6 A, 在 EcoCyc 的 最 新 版 本 5. 6 中 包含 了 以 下 
内 容 : 

* 4393 个 大 肠 杆 菌 基因 

* 905 个 由 这 些 基因 编码 的 酶 

* 2604 个 大 肠 杆菌 的 代谢 反应 

* 165 个 大 肠 杆 菌 的 代谢 途径 

* 162 个 转运 蛋白 

* 629 个 转录 单位 

* 3508 条 引文 

EcoCyc 制作 者 曾经 这 样 描述 :“ 大 肠 杆菌 代谢 的 数字 模型 可 
以 通过 计算 机 方法 来 检测 和 分 析 ”。 这 意味 着 利用 计算 机 模拟 代谢 
途径 模型 可 能 会 代替 传统 的 生化 模型 实验 。 因 此 ， 未 来 的 电脑 可 
能 转变 为 一 个 工作 平台 ， 成 为 一 个 电子 实验 室 。 

目前 ， 互 联网 可 被 视 为 一 个 开放 的 、 没 有 充分 注解 和 未 编辑 
的 数据 库 。 网 上 有 无 数 的 超级 链接 ， 找 到 正确 的 和 完整 的 信息 通 
常 比较 困难 ， 有 时 还 是 不 可 能 的 。 一 些 公 司 已 经 认识 到 有 必要 对 
现存 的 生物 信息 进行 编辑 、 注 解 和 人 为 介入 工作 ， 以 便于 生命 科 
学 界 可 以 充分 利用 这 些 信息 ， 这 些 公司 成 立 的 目的 就 在 于 此 。 对 
生物 信息 的 注解 花费 很 高 ， 但 如 果 能 满足 用 户 的 需求 ， 这 类 产品 
的 销售 会 很 好 。 这 也 是 高 新 技术 产业 一 个 很 好 的 发 展 方向 。 

生命 体系 是 非常 复杂 的 ， 细 胞 内 各 组 分 在 时 空 上 的 组 织 化 是 
细胞 功能 研究 的 一 个 中 心 问题 ， 但 细胞 一 这 个 超级 分 子 结构 网 络 
还 没有 搞 清楚 。 这 个 问题 是 研究 细胞 在 适当 的 时 间 和 地 点 如 何 组 
成 自身 体系 的 。 蛋 白质 组 学 研究 在 某 一 时 刻 细胞 内 蛋白 质 之 间 的 
关系 以 及 与 细胞 功能 的 联系 。 目 前 ， 在 识别 大 范围 细胞 状态 下 特 
异 表达 的 蛋白 质 上 有 了 重要 的 进步 。 生 物 信息 学 在 编辑 从 微生物 
到 人 类 的 蛋白 质 表达 数据 库 工 作 中 起 到 了 非常 重要 的 作用 。 
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生物 信息 学 试图 从 生物 数据 中 提取 新 的 生物 学 信息 和 知识 ， 
是 一 门 深 深 植 根 于 实验 事实 和 数据 的 理论 生物 学 。 从 目前 的 发 展 
来 看 ， 其 应 用 的 范围 十 分 广泛 。 总 的 来 说 ， 大 致 包括 了 以 下 几 个 
方面 : 大 规模 基因 组 测序 中 的 信息 分 析 ; 新 基因 和 新 SNPs ( 单 核 
FRELS) 的 发 现 与 鉴定 ;完整 的 比较 基因 组 研究 ;大 规模 基 
因 功 能 表达 谱 的 分 析 ， 生物 大 分 子 的 结构 模拟 与 药物 设计 ; 生物 
信息 的 在 线 服务 ;生物 信息 可 视 化 和 专家 系统 。 而 其 长 远 任务 包 
括 非 编码 区 信息 结构 分 析 和 遗传 密码 起 源 与 生物 进化 的 研究 ， 读 
懂 和 类 基因 组 ， 发 现 人 类 遗传 语言 的 根本 规律 ， 从 而 阐明 若干 生 
物 学 中 的 重大 自然 哲学 问题 ， 像 生命 的 起 源 与 进化 等 。 如 今 ， 生 
物 信息 学 的 应 用 还 见于 : 汇集 与 疾病 相关 的 人 类 基因 信息 ， 发 展 
病例 样品 DNA 序列 信息 检测 技术 ， 表 达 载 体 的 选择 、 引 物 设计 ， 
建立 与 动 植物 良种 繁育 相关 的 数据 库 ， 等 等 。 

关于 生物 信息 学 在 基因 组 分 析 和 蛋白 质 组 分 析 中 的 应 用 ， 本 
书 在 相关 章节 中 已 有 详细 的 论述 。 下 面 就 其 它 领 域 的 应 用 作 一 介 
绍 。 


第 一 节 分 子 结构 可 视 化 与 计算 机 模拟 


现在 ,生物 学 的 研究 方式 有 了 很 大 的 变化 。 无 论 是 在 大 学 实 
验 室 、 私 人 研究 所 还 是 药物 及 生物 技术 公司 ， 到 处 都 充满 着 昂贵 
的 设备 和 各 种 专业 的 工作 人 员 。 他 们 的 实验 对 象 可 以 是 一 些 少量 
的 液体 , 其 中 含有 生命 的 基本 分 子 一 DNA 和 和 蛋白质。 现代 分 子 生 
物 学 已 成 为 一 门 专门 研究 生命 分 子 的 科学 。 这 些 分 子 是 肉眼 难以 
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感知 的 。 象 孟 德尔 那样 ， 通 过 观察 描述 豌豆 的 颜色 与 形状 的 变化 
进行 研究 的 时 代 已 经 过 去 了 。 当 代 科 学 家 借助 新 的 研究 方法 ， 可 
以 检测 到 影响 豌豆 颜色 和 形状 的 基因 位 点 ， 并 间接 地 测 知 其 分 子 
结构 。 人 们 可 以 通过 对 实验 数据 的 数学 分 析 得 出 基因 在 染色 体 上 
的 位 置 以 及 蛋白 质 的 分 子 结构 特点 。 后 者 即 为 分 子 结构 可 视 化 的 
内 容 。 计 算 机 模拟 已 经 进入 生物 学 研究 领域 ， 并 逐步 成 为 方便 的 
实验 辅助 工具 和 训练 工具 ， 它 对 科研 方法 、 工 作 思维 有 着 深刻 的 
影响 。 

一 、3-D 成 像 (三维 成 像 ) 

物质 的 化 学 结构 , 一 般 可 用 X 射线 衍射 法 来 探知 。 高 能 X 射 
线 通 过 某 种 类 型 的 晶体 时 ， 会 发 生 特 定 的 衍射 形式 。 这 样 ， 便 可 
根据 X 射线 衍射 的 类 型 和 强度 推算 出 电子 在 晶体 分 子 内 的 排 布 。 
从 推算 过 程 的 复杂 程度 上 看 ， 手 工 计算 是 望尘莫及 的 。 因 此 ， 需 
借助 计算 机 以 阐明 蛋白 质 、 核酸 、 脂 类 及 碳水 化 合 物 的 分 子 结构 。 

客观 参数 可 以 反映 分 子 的 实际 情况 。 正 如 水 的 粘 滞 力 可 以 反 
映 液态 水 分 子 之 间 氢 键 动力 学 和 运动 颗粒 的 大 小 。 可 通过 测量 蛋 
白 溶液 的 粘 灌 力 来 测 知 蛋 白质 分 子 的 大 小 和 分 子 量 。 若 采用 量子 
力学 论 的 观点 来 描述 生物 分 子 之 间 重 要 的 相互 作用 〈 如 共 价 和 非 
共 价 键 ), 将 使 问题 变 得 十 分 复杂 。 但 若 采 用 介 电 常数 ， 这 个 单一 
的 物理 参数 来 描述 水 分 子 的 极 性 ， 便 会 大 大 简化 对 水 中 带电 分 子 
间 相 互 作用 的 演算 。 生 物化 学 中 ， 介 电 常 数 常 被 用 来 描述 蛋白 质 
表面 与 水 分 子 、 其 它 蛋 白质 或 DNA 分 子 表 面相 互 作用 引起 的 能 
量变 化 。 同 样 地 ， 膜 蛋白 也 可 用 反映 玖 水 溶剂 介 电 性 的 单个 参数 
来 研究 。 这 类 参数 与 水 溶液 的 参数 有 很 大 不 同 。 对 以 上 参数 的 选 
择 ， 实 际 上 是 一 种 行 之 有 效 的 简化 手段 ， 这 就 是 计算 机 模拟 蛋白 
质 分 子 结构 和 动力 学 时 将 溶剂 (如 : 水 ) 视 为 一 个 简单 的 宏观 量 
的 原因 。 否 则 ， 仅 仅 研究 溶剂 就 需要 相当 长 的 时 间 ， 并 且 由 于 有 
大 量 相对 独立 的 参数 要 考虑 进去 ， 对 分 子 结构 的 模拟 很 难 实现 。 

在 过 去 ,生物 大 分 子 的 成 像 是 不 可 能 的 .1972 年 Levinthal 和 
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Katz 开创 性 地 建立 了 计算 机 线 框 (wireframe) 模型 。 几 年 以 后 ， 
人 们 利用 计算 机 完成 立体 分 子 及 其 旋转 模型 的 愿望 实现 了 。 近 年 
来 ,已 有 容量 较 小 的 类 似 Kinemage 和 Rasmol 的 软件 可 使 我 们 直 
观 地 了 解 蛋 白质 结构 ，Rasmol 和 Cn3D 是 可 免费 下 载 的 软件 。 


ed 
Surweture 3 gp. 915 (1995) 
{ Medine | 
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图 6-1 HIV-1 反 转 录 酶 的 蛋白 质数 据 

图 6-] 显示 的 是 人 类 免疫 缺陷 病毒 HIV) 的 逆转 录 酶 分 子 。 
对 此 分 子 结构 的 描述 已 经 达到 很 高 的 精度 (2. 60 À ), 即 描述 了 除 
氢 原 子 以 外 的 所 有 7715 个 原子 的 相对 空间 位 置 。 另 外 , 还 使 用 了 
X-PLOR3. 1 程序 测定 了 总 数 为 27108 的 反射 射线 ， 使 结构 测定 
更 加 精细 。 应 用 该 酶 的 序列 号 1REV 可 以 查询 Brookhaven 蛋白 
数据 库 (PDB; http://www. rcsb.org)， 查 询 结 果 显 示 其 提交 的 
日 期 是 1995 年 9 月 17 H, 还 有 蛋白 名 称 (HIV 逆转 录 酶 )， 以 及 
作者 姓名 J. Ren), 同时 还 可 以 显示 软件 呈现 的 结构 图 , 见 图 
6-2。 

Compound 和 Classification 列 出 的 信息 使 人 们 知道 该 蛋白 源 
自 人 类 免疫 缺陷 病毒 | 型 的 反 转 录 酶 。 该 反 转 录 酶 是 由 基因 工程 
重组 表达 的 ,其 国际 酶 学 委员 会 编号 为 : EC2. 7. 7. 49。 为 了 获得 
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图 6-2 HIV-1 反 转 录 酶 的 结构 图 〈 网 页 中 为 彩色 ) 


最 大 量 的 结晶 ， 可 以 将 该 酶 表达 于 细菌 。 一 般 所 选 的 表达 体系 为 
大 肠 杆菌 ， 重 组 DNA 中 包含 人 类 免疫 缺陷 病毒 1 型 反 转 录 酶 基 
因 ， 使 其 编码 的 蛋白 过 表达 ， 有 利于 蛋白 纯化 。 当 然 ， 也 需 明 确 
蛋白 的 结晶 参数 、 方 法 ， 外 加 配 体 及 解析 度 (2. 60A )。 为 了 对 目 
前 该 全 白 的 结构 有 个 全 面 的 认识 ， 科 学 家 们 可 通过 一 些 网 络 链接 
去 评估 该 蛋白 的 单 层 扩展 (spreadsheet) 模型 与 3-D 及 2-D AK 
之 间 的 相关 性 。 点 击 “Other resources” 的 链接 , 可 获得 EBI MSD 
Macromolecular file sever, SCOP, MMDB 等 数据 库 中 的 序列 信 
息 以 及 其 它 相 关 信息 的 链接 (可 得 到 MEDLINE 中 的 文章 )。 

使 用 MDL 的 Chemscape Chime 浏览 器 可 轻松 地 以 不 同 模式 
观察 分 子 的 结构 。 另 外 ，PDB 结构 图 形 文件 还 可 下 载 ， 并 可 随时 
使 用 数据 Chime 软件 的 Rasmol 浏览 器 浏览 。 


附 : 虚拟 医生 (Virtual Doctor) 及 虚拟 人 体 
在 先进 的 临床 医学 诊治 手段 中 ， 计 算 机 和 机 器 人 常 是 重要 的 组 成 部 分 。 
这 些 诊治 手段 高 效 省 时 ,其 日 益 提 高 的 精确 性 正 驱 动 着 它们 在 当今 和 未 来 的 
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医学 中 的 快速 发 展 。 所谓 虚拟 医生 , 一 般 是 指 虚 拟 的 或 远程 的 外 科 手 术 及 其 
它 治疗 。 模拟 仿真 软件 在 一 些 医院 里 被 应 用 于 外 科 手 术 演 练 和 培训 。 虚拟 手 
术 虽 有 助 于 提高 某 些 手术 的 成 功率 ,但 不 能 预测 真实 手术 中 可 能 出 现 的 一 些 
问题 。 而 正 是 对 处 理 意外 情况 的 不 断 训 练 , 会 大 大 提高 外 科 医 生 的 操作 水 平 
以 及 在 真实 手术 时 的 治疗 效果 。 因此 , 仿真 软件 的 拟 真 度 是 至 关 重 要 的 。 要 
使 手术 区 的 结构 得 以 真实 地 展现 ,对 各 种 解剖 部 位 三 维 结构 特征 的 再 现 必须 
十 分 精确 。 虚 拟 外 科 手 术 的 难度 必须 能 够 测 知 , 以 便于 量化 术 前 手术 操作 水 
平 , 便于 培训 时 的 自我 控制 。 

数 百年 来 ， 人 体 解剖 结构 成 像 一 直 是 医学 界 的 一 大 挑战 。1489 年 
Leonardo da Vinci 详尽 的 解剖 图 谱 在 当时 对 医学 教育 ,诊断 和 治疗 都 有 巨大 
的 影响 。 但 Leonardo 的 图 谱 却 不 能 显示 存活 着 的 人 体 结构 。 直 到 1895 年 
Conrad Roentgen 发 现 X 线 ， 人 们 的 这 一 梦想 才 有 了 可 能 。X 线 检查 是 第 一 
种 用 于 临床 的 医学 活体 成 像 技 术 。 该 技术 的 局 限 在 于 , 它 仅 能 呈现 横 切 面 的 
二 维 结构 , 而 这 样 收集 到 的 组 织 器 官 的 信息 量 很 少 。 尽管 如 此 , 直到 今天 ,X 
线 仍 是 医学 实践 中 很 有 用 的 工具 。 上 个 世纪 70 年 代 发 展 起 来 的 计算 机 断层 
扫描 成 像 (CT) 和 80 年 代 发 展 起 来 的 核磁 共振 成 像 (MRI, 大 大 地 提高 了 
活体 解剖 结构 断层 的 成 像 效 果 。 由 这 些 技术 获得 的 二 维 图 像 有 助 于 临床 诊断 
和 解剖 学 教学 质量 的 提高 。 

二 维 图 像 的 缺点 是 缺乏 立体 上 的 信息 , 它 不 能 显示 物体 在 三 维 空间 上 的 
特征 关系 。 三 维 图 像 可 表现 组 织 结构 之 间 相 互 关系 的 信息 (如 : 组 织 -组 织 、 
器 官 -器 官 )。 在 二 维 图 像 中 ,获取 的 信息 可 建立 在 两 个 参数 的 坐标 系统 上 .要 
使 二 维 的 图 片 连接 成 三 维 图 像 ,必须 有 来 自 第 三 维度 CZ 轴 ) 的 信息 。 现 在， 
有 几 种 三 维 重建 技术 被 用 来 提高 图 像 的 质量 和 真实 性 ,它们 使 展示 的 图 片 对 
观察 者 更 具 吸引 力 。“ 灰 度 梯度 显影 法 ” (gray level gradient shading), 
“Generalized Voxel Model” 和 人 体 模 型 可 视 化 的 重建 是 近 十 年 来 最 为 成 功 
的 几 种 技术 。 利 用 灰 度 梯度 法 , 计算 机 依 原始 的 数据 断层 图 像 计算 产生 动力 
范围 的 光滑 面 标准 。 而 “Generalized Voxel Model” 则 可 进行 图 像 数据 信息 
的 进一步 分 析 处 理 , 该 技术 的 应 用 之 一 是 能 同时 显 像 各 个 器 官 并 可 选择 性 截 
取 三 维 图 像 。 最 近 的 研究 集中 于 构建 虚拟 的 “可 视 人 体 ”。 在 这 一 项 技术 中 ， 
彩色 断面 成 像 法 提高 了 物体 三 维 图 像 的 质量 和 真实 性 。 计 算 机 已 经 并 将 继续 
推进 医学 的 发 展 。 


二 、 虚 拟 细胞 与 预测 生物 学 
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目前 ， 生 物 信息 学 最 活路 的 前 沿 是 基因 组 信息 学 ， 它 正在 成 
为 发 现 基因 、 破 译 基因 组 密码 并 推动 实验 科学 的 强 有 力 工具 。 基 
因 组 信息 学 的 首要 任务 之 一 就 是 发 现 新 的 基因 和 功能 。 由 于 测序 
技术 的 进步 ， 各 国政 府 和 公司 资助 的 测序 中 心 首 先 对 重要 病原 体 
和 工程 菌 的 基因 组 进行 测序 。 至 今 已 有 多 种 重要 微生物 的 全 基因 
组 的 测序 工作 已 完成 。 

这 些 细菌 基因 组 的 全 序列 立即 成 为 研究 新 的 更 精确 有 效 的 诊 
断 、 治 疗 手 段 和 新 药物 的 基础 。 以 前 ， 分 子 生 物 学 家 一 直 习 惯 于 
分 离 和 分 析 一 个 个 的 基因 。 随 着 生物 学 知识 的 积累 和 计算 机 技术 
的 发 展 ， 研 究 细胞 全 基因 组 在 生理 和 各 种 病理 过 程 中 表达 的 动态 
变化 已 经 成 为 可 能 。 这 是 实验 生物 学 进步 的 必然 ， 也 将 为 理论 生 
物 学 成 为 整个 生命 科学 的 先锋 带 来 了 重大 的 机 遇 。 在 日 本 的 Keio 
大 学 有 一 个 名 叫 Masaru Tomita 的 生物 信息 学 教授 领导 的 研究 
小 组 , 正在 做 一 个 有 着 划时代 意义 的 软件 : E-CELL, 我 们 称 之 为 
虚拟 细胞 〈 见 图 6-3)。 这 是 一 种 生物 学 计算 机 模拟 软件 ， 在 计算 
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图 6-3 E-Cell 软件 的 控制 面板 
机 环境 中 构造 一 个 虚拟 的 电子 细胞 。 它 不 仅仅 包括 一 些 单一 的 细 
胞 事件 和 过 程 ， 而 是 从 整体 的 角度 为 细胞 描绘 一 幅 全 图 。 电子 细 
胞 将 把 每 个 时 刻 特 定位 置 上 特定 物质 的 变化 ， 通 过 画面 和 数字 告 
诉 你 。 研 究 者 可 以 仅仅 用 鼠标 去 轻 轻 点 击 ， 就 能 实现 在 分 子 生 物 
学 实验 室 花费 大 量 时 间 和 人 金钱 进行 的 基因 闹 除 、 转 基因 或 基因 修 
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饰 等 操作 ， 自 由 地 将 感 兴趣 的 细胞 暴露 在 某 一 种 生存 环境 下 ， 而 
无 需 考 虑 细菌 的 污染 、RNA 的 降解 或 放射 性 损害 。 研究 者 所 需 做 
的 就 是 输入 初始 值 , 然后 就 是 在 计算 机 屏幕 前 等 待 E-CELL 的 模 
WAR. BLA, 这 种 方法 将 提供 一 个 非常 简捷 经 济 的 手段 , 来 
进行 药物 筛选 和 基因 功能 研究 。 更 重要 的 是 ， 我 们 能 实时 的 看 到 
某 个 因素 和 环节 对 细胞 整体 行为 及 生命 活动 的 影响 。 目 前 这 个 程 
序 可 在 UNIX 或 Linux 操作 系统 下 运行 .Tomita 的 研究 小 组 已 经 
开发 了 E-CELL 的 Windows 版 本 可 以 通过 http:// 
bioinformatics. org/project/ 网 址 的 相关 链接 获得 。 

Tomita 的 小 组 已 用 E-CELL 的 早期 版 本 建构 了 一 个 “假想 的 
细胞 ”, 拥有 大 部 分 来 自 解 腺 支原体 (最 简单 的 细胞 和 最 简单 的 基 
因 组 ) 的 127 个 基因 。 这 个 虚拟 的 细胞 就 在 计算 机 环境 下 “ 生 
活 ” 着 ， 从 虚拟 的 培养 基 中 吸取 着 葡萄 糖 等 养分 ， 合 成 各 种 各 样 
的 维系 细胞 生存 的 酶 和 蛋白 质 ， 排 出 乳酸 等 代谢 废物 。 它 的 重复 
性 很 好 ， 绝 没有 人 为 的 误差 ;更 重要 的 是 ， 它 在 给 我 们 一 种 崭新 
的 探索 环境 , 我 们 能 从 已 知 里 寻找 未 知 的 联系 , 检验 我 们 的 思想 。 

除了 基因 组 信息 学 外 ,生物 信息 学 在 测定 蛋白 质 结构 方面 ,也 
有 着 突出 贡献 。 利 用 分 子 模拟 技术 结合 计算 机 图 形 技术 可 以 更 形 
象 、 更 直观 地 研究 蛋白 质 等 生物 大 分 子 的 结构 。 当 前 的 分 子 模拟 
技术 主要 借助 于 先进 的 计算 机 图 形 工作 站 ,通过 友好 的 图 形 环境 ， 
使 用 者 可 利用 鼠标 极为 方便 地 建立 多 肽 \ 蛋 白 分 子 的 初始 模型 . 同 
时 ， 也 可 以 对 已 知 的 生物 大 分 子 的 三 维 结构 进行 显示 ， 并 对 这 些 
结构 进行 灵活 方便 的 平移 、 旋 转 、 放 大 及 缩小 等 操作 。 分 子 模型 
的 建立 为 下 一 步 进 行 的 分 子 模拟 以 及 了 解 结构 与 功能 的 关系 打下 
了 基础 。 

生物 学 和 医学 最 新 的 研究 进展 给 这 些 领域 增添 了 许多 预测 性 
的 因素 。 利 用 生物 信息 学 预测 工具 在 蛋白 质 结构 预测 和 药物 设计 
工作 中 作出 了 很 大 的 贡献 。 这 就 出 现 了 一 门 新 的 学 科 一 预测 生物 
学 。 这 门 学 科 利 用 以 往 的 一 些 研究 结果 (如 : 已 知 的 蛋白 质 一 级 
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结构 和 三 级 结构 关系 ) 总 结 出 其 中 内 在 的 规律 ， 利 用 这 些 规律 去 
预测 一 些 可 能 的 结果 (如: 蛋白 质 的 三 级 结构 等 ), 并 可 以 利用 这 
些 结果 去 指导 将 来 的 实验 研究 。 

近年 来 ， 国 际 上 一 些 研究 组 发 展 了 一 些 从 蛋白 质 的 一 级 结构 
直接 预测 蛋白 质 空间 结构 的 新 方法 。 这 些 方法 的 基本 思想 是 将 基 
于 生物 学 知识 的 方法 与 计算 化 学 以 及 统计 物理 学 的 方法 相 结合 ， 
采用 简化 的 蛋白 质 模 型 和 根据 已 知 结构 的 蛋白 质 所 导出 的 平均 势 
场 ， 从 理论 上 计算 蛋白 质 的 空间 结构 。 这 些 方法 不 仅 可 以 从 蛋白 
质 的 一 级 结构 直接 预测 蛋白 质 的 三 维 结构 ， 而 且 可 以 在 计算 机 上 
模拟 蛋白 质 分 子 折 县 的 全 过 程 。 目前， 还 有 一 些 新 方法 ， 如 遗传 
算法 、 模 拟 退 火 、 多 维 统计 、 模 糊 集 合 论 等 方法 在 蛋白 质 结 构 预 
测 中 的 应 用 也 正在 研究 之 中 。 通 过 对 一 些 简 单 蛋白 质 分 子 的 模拟 
研究 , 这 些 新 方法 已 经 显示 出 很 强 的 生命 力 。 许 多 权威 人 士 推测 ， 
随 着 这 些 新 方法 的 进一步 改进 和 完善 , 在 今后 10 年 内 , 蛋白 质 折 
全 这 一 分 子 生物 学 中 的 难题 将 有 望 得 到 解决 。 

另外 ,生物 信息 学 在 药物 设计 方面 也 有 着 广阔 的 发 展 前 景 。 传 
统 的 药物 研制 主要 是 从 大 量 的 天 然 产物 ， 如 动物 、 植 物 、 微 生物 
和 合成 有 机 、 无 机 化 合 物 以 及 矿物 中 进行 筛选 。 得 到 一 个 可 供 临 
床 使 用 的 药物 要 耗费 大 量 的 时 间 与 金钱 。 近 年 来 由 于 生物 信息 学 
的 发 展 ， 相 当 数 量 的 蛋白 质 以 及 一 些 核酸 、 糖 类 三 维 结构 已 被 人 
们 精确 测定 ,使 得 基于 蛋白 质 和 核酸 结构 的 药物 设计 成 为 可 能 。 比 
如 近年 开发 的 用 于 药物 分 子 初期 设计 的 LUDI 软件 ， 人 们 只 要 将 
所 感 兴趣 的 受 体 及 可 能 的 药物 分 子 结构 输入 ，LUDI 就 可 以 计算 
该 药物 分 子 对 受 体 抑制 活性 的 相对 值 。 这 种 评估 方法 可 对 作用 于 
某 一 受 体 并 具有 不 同 抑制 活性 的 大 批 药 物 分 子 进 行 快速 筛选 。 


第 二 节 神经 生物 信息 学 的 研究 


人 类 基因 组 计划 对 人 类 健康 、 疾 病 诊断 、 药 物 开 发 、 生 态 平 
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衡 和 生物 学 研究 有 着 不 可 估量 的 贡献 。 许 多 科学 家 认为 ， 在 人 类 
基因 组 计划 之 后 应 该 是 人 类 蛋白质 组 计划 和 人 类 脑 计划 。 

人 类 脑 计 划 的 核心 内 容 是 神经 生物 信息 学 。 神 经 生物 信息 学 
是 脑 科 学 和 信息 学 这 两 大 学 科 相 结合 的 新 兴 的 边缘 学 科 。 其 目标 
是 利用 现代 化 信息 工具 ， 使 神经 科学 家 和 信息 学 家 能 够 将 脑 的 结 
构 和 功能 研究 结果 联系 起 来 ， 建 立 神经 生物 信息 学 数据 库 和 有 关 
神经 系统 所 有 数据 的 管理 系统 ， 将 不 同 层次 的 与 脑 研 究 相 关 的 数 
据 进 行 检索 、 比 较 、 分析、 整合 、 建 模 和 仿真 , 绘制 出 脑 功 能 、 结 
构 和 神经 网 络 图 谱 ， 从 而 解决 目前 神经 科学 所 面临 的 大 量 数 据 问 
题 ， 从 基因 到 行为 各 个 水 平 加 深入 类 对 大 脑 的 理解 ， 达 到 “认识 
脑 、 保 护 脑 和 创造 脑 ” 的 目标 。 

人 脑 的 复杂 性 远 远 超出 了 我 们 目前 的 认识 能 力 。 传 统 的 神经 
生物 学 等 实验 室 研 究 对 于 解决 人 脑 对 复杂 信息 的 获取 、 处 理 与 加 
工 及 高 级 认 知 功能 的 机 制 ， 犹 如 只 见 树木 不 见 森 林 。 神 经 生物 信 
息 学 工具 和 数据 库 的 应 用 ， 使 得 我 们 可 能 从 有 限 的 实验 数据 中 找 
出 神经 信息 获取 、 处 理 和 整合 的 规律 和 法 则 ， 提 出 在 各 种 刺激 条 
件 下 ， 脑 内 信息 加 工 的 数学 模型 的 实验 假设 和 用 计算 机 模拟 脑 内 
神经 信息 网 络 。 人 类 脑 计划 的 发 展 与 神经 信息 学 紧密 相连 。 

一 、 人 类 脑 计划 和 人 脑 图 谱 

由 于 研究 行为 、 意 识 、 记 忆 、 睡 眠 京 乱 、 感 觉 或 疼痛 (包括 
四 肢 痛 ) 等 的 需要 ， 大 脑 的 研究 受到 了 科学 家 们 的 高 度 重 视 。 最 
近 ， 计 算 机 辅助 脑 扫描 技术 和 人 类 基因 组 计划 的 成 功 ， 再 次 促使 
人 们 去 尝试 描绘 大 脑 的 解剖 功能 图 谱 。 有 了 这 种 定位 图 谱 ， 人 们 
终究 会 有 一 天 ， 可 在 单个 感觉 神经 元 水 平 把 神经 元 的 活动 和 其 功 
能 同时 定位 。 新 兴 的 学 科 一 一 神经 生物 信息 学 将 人 类 基因 组 计划 
的 最 新 研究 进展 应 用 到 神经 科学 的 研究 当中 ， 即 DNA 序列 与 脑 
功能 数据 资料 间 的 结合 。 这 种 结合 为 研究 人 类 的 行为 方式 的 机 制 
提供 了 解释 。 

1993 年 4 月 2 日 ,美国 NIH 正式 宣布 人 类 脑 研 究 计 划 
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(Human Brain Project) 启动 。 人 类 脑 研究 计划 作为 一 个 多 学 科 的 
长 期 性 研究 ， 开 创 性 地 支持 了 先进 技术 手段 的 研究 和 发 展 ， 为 神 
经 科学 家 和 行为 科学 家 们 打开 了 信息 高 速 公路 一 互联 网 之 门 CA. 
类 脑 研 究 计划 , http://www-HBP. scripps. edu). 美国 20 多 家 著 
名 的 大 学 和 研究 所 参加 了 这 个 研究 计划 。50 多 位 神经 信息 学 的 课 
题 负责 人 得 到 该 项 目的 基金 资助 。 他 们 充分 利用 神经 科学 和 信息 
科学 的 优势 条 件 进行 研究 ， 相 互 间 建立 合作 关系 ， 利 用 电子 网 络 
互通 信息 ， 运 用 数据 库 进行 资源 共享 。 

1996 年 在 巴黎 的 政府 间 实 体 一 经 济 合 作 发 展 组 织 (OECD) 的 
科学 论坛 上 ,批准 建立 以 美国 为 领头 国家 的 神经 信息 学 工作 组 , 参 
与 国 包括 : 美国、 英国、 德国、 法国、 瑞典 、 挪 威 、 瑞 士 、 澳 大 
利 亚 、 日 本 等 19 个 国家 ,欧洲 委员 会 也 作为 正式 成 员 参 加 。 其 目 
的 是 组 织 和 协调 全 世界 神经 科学 和 信息 学 家 共同 研究 脑 . 开 发 脑 、 
保护 脑 和 创造 脑 。 根 据 规 定 ， 成 员 国之 间 可 利用 电子 网 络 寻求 研 
究 协作 伙伴 ， 进 行 数据 交换 和 科研 协作 ， 可 以 免费 使 用 通用 神经 
信息 学 数据 库 和 信息 工具 ， 承 担 科研 任务 ， 共 享 科 研 成 果 和 脑 研 
究 资源 。 

人 类 脑 研究 计划 包括 三 个 子 计 划 : 

*“ 链接 计划 : 多 模型 成 像 和 神经 元 链接 分 析 (the Multi- 
Model Imaging and Analysis of Connectivity) 

。 脑 图 谱 计 划 :活体 脑 发 育 图 谱 (the In Vivo Atlases of Brain 
Development) 

* 算法 计划 : 三 维 分 析 和 可 视 化 的 算法 (Goal-Based 
Algorithms for 3-D Analysis and Visualization) 

许多 不 同 技术 需 应 用 于 该 计划 : 如 化 学 、 动 物 模型 、 计 算 机 
技术 、 网 络 工作 、 网 页 设计 、 功 能 核磁 共振 成 像 等 技术 。 为 了 更 
清楚 地 了 解 人 脑 的 复杂 性 ， 脑 研究 计划 的 最 终 目 标 是 将 脑 研究 中 
的 神经 科学 内 容 与 信息 学 内 容 “ 编 织 成 一 个 整体 ”。 以 下 为 加 州 理 
工学 院 的 观点 : 


Was 
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人 类 脑 研究 计划 的 进步 ,是 在 各 自 独立 的 研究 计划 和 研究 中 心 之 间 互 动 
的 作用 下 取得 的 。 许 多 研究 人 员 的 专长 和 兴趣 跨越 了 不 同 的 研究 领域 , 从 而 
促进 了 脑 研究 的 进展 。 信 息 学 部 分 的 工作 为 神经 学 部 分 提供 了 收集 、 分 析 和 
观察 信息 新 颖 而 更 有 效 的 的 方法 。 信 息 学 家 们 也 有 必要 向 神经 科学 家 们 学 习 
这 些 数据 是 如 何 收集 的 ， 以 及 什么 样 的 信息 是 重要 的 、 需 要 引起 关注 的 
(http://www. gg. caltech. edu/hbp/). 


现在 ， 有 许多 不 同学 科 的 专家 一 一 从 分 子 生物 学 、 电 生理 学 
家 到 认 知 学 家 、 哲 学 家 一 一 都 加 入 了 神经 生物 学 的 研究 。 其 中 有 
些 科学 家 从 事 与 意 识 有 关 的 认 知 学 问题 的 研究 ， 他 们 相信 人 们 最 
终 可 以 在 分 子 水 平 上 擦 开 “意识 -机 体 ”(mind-body) 问题 的 神秘 
面纱 。 脑 研究 是 由 各 类 专家 承担 的 ， 其 中 每 位 专家 都 有 其 独特 的 
研究 手段 、 研 究 技术 和 研究 方法 。 从 生物 物理 学 到 心理 学 的 诸多 
学 科 之 间 没 有 一 种 “通用 语言 ”, 但 许多 科学 家 依然 相信 这 种 通用 
语言 存在 。 人 类 意识 的 两 个 主要 方面 : 情感 和 思维 ， 从 生物 学 角 . 
度 看 具有 “难以 琢磨 ”的 特点 。 的 确 ， 某 些 化 学 物质 可 以 影响 人 
们 的 意识 ， 似 乎 意识 是 存在 于 中 枢 神经 系统 之 中 的 。 然 而 ， 人 们 
对 于 脑 内 的 化 学 反应 在 时 空 上 是 如 何 产生 意识 的 , 却 所 知 甚 少 。 生 
命 科 学 中 许多 不 同 领域 间 的 信息 鸿沟 阻碍 着 神经 生物 学 的 发 展 。 

人 不 能 看 见 ， 或 不 能 感知 自身 体验 以 外 的 物质 世界 。 为 了 克 
服 这 一 天 生 缺 陷 ， 我 们 必须 创造 出 人 类 可 以 感知 的 “影像 ”一 一 
将 那些 不 能 感知 的 事物 转换 成 为 可 视 世界 。 伪 色 成 像 技 术 (False 
color imaging) 就 是 这 样 一 种 功能 强大 的 工具 ,可 以 将 物理 参数 单 
位 转换 为 从 红 到 蓝 的 颜色 代码 。 例 如 ， 将 温度 梯度 转换 为 从 红 到 
兰 的 颜色 代码 。 这 样 一 来 ， 人 们 不 必 去 阅读 和 比较 数字 ， 大 脑 就 
会 自动 地 辨别 出 个 体 之 间 在 空间 分 布 上 的 差别 。 这样， 我 们 便 可 
“看 见 ” 温 度 梯度 (可视化 红外 线 成 像 )， 或 脑 中 的 分 子 氧 耗 量 以 
定位 脑 中 高 代谢 的 活动 点 。 伪 色 成 像 是 一 项 令 人 着 迷 的 技术 ， 它 
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可 使 人 们 把 抽象 的 数学 方程 进行 转化 ， 把 各 种 数值 转化 为 眼睛 的 
视觉 感受 。 计 算 机 推进 了 这 种 转化 在 生命 科学 研究 中 的 应 用 。 

Ramony Cajal (1852-1934) 是 一 位 西班牙 的 神经 解剖 学 家 , 早 
在 1906 年 , 因 其 出 色 的 工作 获得 诺 贝尔 医学 奖 。 他 细致 而 又 精确 
地 记录 了 神经 系统 的 结构 图 ,这 一 工作 充分 体现 了 19 世纪 科学 研 
究 的 精致 与 严谨 。Camillo Golgi 是 1906 年 诺 贝尔 医学 奖 的 另 一 
位 获得 者 。 他 发 明了 一 种 新 的 神经 细胞 染色 法 ， 可 以 染 出 单个 细 
胞 或 细胞 群 , 并 显示 出 神经 元 之 间 的 连接 。 在 这 一 技术 的 基础 上 ， 
Cajal 对 神经 元 作 了 艺术 般 的 “描绘 ”, 因 而 成 为 当时 脑 科 学 研究 的 
代表 人 物 。Cajal 的 图 谱 显示 : 消 椎 动物 大 脑 是 由 数 以 亿 计 的 单个 
细胞 和 神经 元 组 成 的 , 而 不 是 由 细小 动脉 连接 成 的 网 络 。 今 天 , 人 
们 采用 新 的 染色 技术 、 成 像 技 术 与 计算 机 辅助 相 结 合 的 方法 正在 
构建 人 脑 解剖 图 谱 (参阅 哈佛 医学 院 全 脑 图 ，http : /www. med. 
harvard. edu/AANLIB/home. html). 

功能 性 脑 图 谱 的 绘制 (Functional Brain Mapping) 采用 无 创 
技术 如 SPECT/PET、fMRI、EEG 、MEG 、 视 党 成 像 和 神经 解剖 
学 方法 。 这 些 工具 用 来 绘制 脑 的 横断 面 图 谱 。 横 断面 图 再 一 起 重 
组 成 脑 的 三 维 图 像 。 人 脑 整合 图 谱 为 解剖 和 功能 图 谱 添 加 上 了 时 
空 维度 。 

在 空间 上 fMRI 对 脑 结构 功能 在 毫米 水 平 的 分 辩 率 和 在 时 间 
上 EEG, MEG 毫秒 级 的 分 辩 率 ,需要 用 计算 机 手段 将 二 者 联系 起 
来 ， 以 形成 脑 活动 的 电影 图 像 。 哈 佛 大 学 医学 院 (http://www. 
med. havard. edu/AANLIB/home. html) 的 全 脑 图 是 向 公众 开放 
的 , 它 提供 正常 脑 图 和 脑 血管 疾病 (如 中 风 )、 增 生性 疾病 (如 肿 
瘤 )、 变 性 疾病 (如 阿尔 茨 海 默 病 ， 亲 壬 顿 病 及 炎症 性 或 感染 性 
疾病 (如 多 发 性 硬化 、AIDS 相关 性 痴呆 、Creutzfeld-Jakob 综合 
症 ( 人 疯牛病 )、 疱疹 脑 炎 ) 的 脑 图 。 空间 上 毫米 级 的 分 辩 率 远 远 
不 能 达到 在 分 子 层次 上 对 脑 功能 研究 的 要 求 。 尽 管 神经 元 的 轴 突 
可 长 达 数 毫米 至 数 米 不 等 ， 但 其 胞 体 却 仅 有 数 微 米 大 小 ， 神 经 元 
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的 化 学 突 触 则 更 小 。 这 样 ， 神 经 解剖 图 谱 (诸如 全 脑 图 谱 》 无 法 
达到 在 分 子 水 平 上 的 细节 描绘 。 这 些 细节 来 自 于 生物 化 学 ， 生 理 
学 、 药 理学 和 分 子 生物 学 的 研究 ， 如 离子 通道 、 受 体 分 布 (蛋白 
组 学 )、mRNA 水 平分 布 (基因组 学 ),， SS. 尽管 目 前 全 脑 图 谱 
的 信息 容量 和 分 辩 率 水 平 能 够 精确 地 指出 运动 神经 中 枢 ， 但 还 不 
能 提供 单个 神经 元 或 神经 元 群 的 电 活动 方式 和 其 对 神经 递 质 的 选 
择 性 。 换 名 话说， 结构 细节 还 未 与 脑 的 功能 状态 和 当时 的 意识 活 
动 联系 起 来 。 

大 脑 是 生物 体内 结构 和 功能 最 复杂 的 组 织 ， 也 是 极为 精巧 和 
完善 的 信息 处 理 系统 ， 掌 管 着 人 类 每 天 的 语言 、 思 维 、 感 觉 、 情 
绪 、 运 动 等 高 级 活动 。 人 类 脑 计划 可 以 使 人 们 对 这 个 高 度 发 达 的 
处 理 系 统 有 一 个 较为 深入 的 认识 。 

二 、 神 经 变性 性 疾病 的 分 子 机 制 

动作 电位 是 在 细胞 膜 局 部 表面 上 维持 数 微 秒 的 微小 跨 膜 电压 
变化 。 分 子 神经 生物 学 关注 与 动作 电位 相关 的 蛋白 复合 体 ， 即 所 
亩 的 离子 通道 的 结构 功能 关系 。 离 子 通道 是 离子 穿 过 细胞 膜 的 通 
路 。 细胞 膜 是 电 绝 缘 的 ， 在 没有 通道 存在 时 阻 沾 带 有 正 电 或 负电 
的 离子 通过 。 离子 流 可 用 电流 来 测量 , 利用 高 敏感 的 电流 放大 器 ， 
便 可 检测 出 千 分 之 一 秒 内 几 千 个 离子 的 运动 ， 因 而 也 可 揭示 整个 
细胞 膜 或 部 分 膜 片 电 活动 的 生物 信息 。 神 经 元 信息 传递 的 单元 一 
动作 电位 ， 是 至 少 三 种 不 同 离子 通道 共同 活动 的 结果 。 它 意味 着 
对 每 一 种 离子 ， 细 胞 上 必需 存在 与 之 相应 的 一 种 蛋白 允许 其 跨 膜 
流动 。 众 所 周知 ， 离 子 通道 具有 离子 选择 性 。 

在 神经 生物 学 中 ， 单 个 离子 通道 的 知识 绝 大 部 分 来 自 对 单 细 
胞 电流 的 生物 化 学 和 动力 学 分 析 。 离 子 通道 的 共同 活动 形成 了 神 
经 细胞 的 宏观 行为 ， 这 要 求 对 膜 离子 通道 活动 要 有 正确 的 数据 表 
述 。 

许多 这 类 通道 蛋白 与 神经 变性 性 疾病 及 大 脑 对 药物 和 毒物 的 
易 感性 有 关 。 虽 然 自 20 世纪 40 年 代 以 来 ， 人 们 已 对 离子 通道 进 
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行 了 功能 和 结构 上 的 详尽 的 研究 ,但 90 年 代 采 用 分 子 生 物 学 技术 
对 新 基因 及 通道 蛋白 的 基因 结构 的 研究 ， 极 大 地 推进 了 人 们 对 诸 
如 阿尔 芯 海 默 氏 病 、 帕 金森 氏 病 及 享 廷 顿 病 的 认识 。 人 类 基因 组 
计划 将 会 加 深 我 们 对 这 些 疾病 及 其 它 遗传 性 疾病 的 理解 。 寻 找 如 
何 治疗 这 些 疾病 的 研究 为 生物 信息 学 在 不 同 的 研究 层次 上 提供 了 
用 武之 地 。 

例如 ，QT 间 期 延长 综合 征 是 人 类 心肌 节律 控制 失调 的 一 种 
表现 ， 可 出 现 突 发 性 意识 丧失 和 心 源 性 狂 死 ， 常 见于 受 各 种 应 激 
(如 重 体力 活动 ) 的 青少年 。 这 种 由 心肌 细胞 钾 离子 通道 结构 异常 
导致 的 疾病 往往 表现 为 快速 心律 失常 。 这 里 起 主要 作用 的 是 选择 
性 钾 离 子 通道 , 它 排 斥 其 它 任何 具有 生物 学 意义 的 离子 ,如 钠 、 氧 、 
钙 、 镁 等 通过 。 通 常 细胞 内 钾 离 子 浓度 高 出 细胞 外 十 倍 ， 一 旦 钾 
离子 通道 开放 ， 钾 离子 从 胞 内 流向 胞 外 ， 使 胞 外 带 正 电 。 这 种 钾 
离子 外 流 将 一 直 持续 到 细胞 内 外 钾 离 子 浓度 相同 为 止 。 在 正常 体 
细胞 中 ， 这 种 现象 不 会 出 现 。 

体 细胞 不 能 达到 这 种 平衡 的 机 制 有 两 种 解释 ， 首先 ， 细 胞 能 
把 钾 离 子 泵 入 胞 内 ， 同 时 ， 通 过 同一 转运 蛋白 一 钠 钾 泵 一 把 钠 离 
子 泵 出 胞 外 ， 造 成 钠 离子 膜 内 外 的 不 对 称 分 布 ， 产 后 一 种 对 抗 钾 
离子 流 的 电场 力 。 其 次 ， 通 常 钾 离子 通道 在 短暂 的 开放 后 ， 受 到 
调控 而 长 时 间 关 闭 ( 失 活 ) 。 钾 离子 通道 的 开放 时 间 及 离子 流量 因 
细胞 不 同 而 异 ， 说 明 不 同 的 细胞 上 存在 着 不 同 的 钾 通 道 。 这 可 能 
是 因为 细胞 基因 组 上 存在 着 不 同 但 又 功能 相关 的 钾 通 道 基因 ， 这 
些 基因 的 差异 性 表达 造成 了 组 织 和 细胞 钾 通 道 分布 和 活动 的 特异 
性 。 单 纯 钾 通道 活动 的 结果 是 恢复 神经 元 的 静 息 电 位 〈 复 极 化 )， 
在 QT 间 期 延长 综合 征 中 ,一 种 钾 通 道 基因 发 生 突变 ,就 会 引起 复 
极 显 著 减 慢 ， 导 致 心肌 节律 失常 。 

目前 ， 通 过 逐个 克隆 的 办 法 发 现 了 许多 钾 通 道 的 基因 。 通 过 
序列 分 析 和 比较 ， 我 们 更 深入 地 认识 了 这 些 基 因 的 作用 及 生物 体 
如 何 利 用 它们 所 编码 的 蛋白 质 。 在 未 来 生物 学 的 发 展 中 , DNA 和 
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氨基 酸 的 序列 分 析 与 功能 信息 相 结合 是 极为 重要 的 。 将 基因 多 样 
性 、 细 胞 特异 表达 和 功能 相 结合 ， 可 建立 基因 功能 图 谱 数据 库 。 

目前 已 克隆 成 功 并 完成 测序 的 钾 离 子 通道 基因 已 超过 50 种 ， 
这 一 数 上 月 包括 了 从 人 到 细菌 多 种 生物 的 相关 基因 。 随 着 测序 的 进 
展 ， 我 们 能 对 一 些 功能 信息 已 知 的 序列 差异 做 出 有 趣 的 解释 。 再 
省， 对 序列 、 结 构 、 功 能 间 关 系 的 理解 有 助 于 我 们 对 这 些 通道 的 
正常 生理 和 相关 疾病 的 认识 。 
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|NCBI| Genes and disease [Map 


图 6-4 Genes and Diseases: NCBI X T itt f£ fE 9 foi 3E [X f HE He 

基因 测序 和 作 图 在 确定 疾病 相关 基因 方面 的 进展 在 NCBI 站 
点 有 详细 的 介绍 (图 6-4)。NCBI (美国 国家 生物 技术 信息 中 心 ) 
提供 了 基因 与 疾病 的 信息 总 汇 。 八 种 遗传 性 疾病 与 离子 通道 、 泵 
和 转运 蛋白 缺 了 网 有关。 包括 赛 性 纤维 化 〈 与 氧 离 子 通道 有 关 ), X 
态 不 良性 不 典型 增生 (diastrophic dysplasia， 与 转 硫 蛋 白 有 关 )， 
QT 间 期 延长 综合 征 〈 与 钾 离子 通道 蛋白 有 关 ), Menker's 综合 征 
与 铜 离子 转运 有 关 )，Pendre 综合 征 〈 与 胸腺 特异 的 转 硫 蛋白 有 
Xo. SRF “与 细胞 问 连接 蛋白 及 膜 蛋白 组 织 有 关 )，Wilson's 
disease “与 铀 离子 转运 蛋白 及 ATP MAK). Zellweger 综合 症 
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(与 PXR1 蛋白 有 关 ， 为 过 氧化 物 酶 蛋白 转运 受 体 ) 。 

相同 物种 , 甚至 不 同 物种 间 离 子 通道 研究 的 生理 学 、 药 理学 、 
分 子 遗传 学 、 种 系 生 物 学 的 分 析 与 比较 也 是 分 子 生物 学 未 来 的 发 
展 方向 之 一 。 


第 三 节 ”生物 信息 学 在 肿瘤 学 研究 中 的 应 用 


肿瘤 通常 发 生 在 细胞 分 裂 失去 控制 的 情况 下 。 正 常 细胞 分 裂 
的 时 序 性 处 于 严格 的 控制 之 中 ， 这 是 一 个 信号 传递 的 网 络 。 它 决 
定 着 细胞 分 裂 的 时 机 、 时 间 间 隔 以 及 如 何 修复 分 裂 中 的 产生 的 错 
误 。 在 这 个 网 络 中 ， 由 于 环境 因素 〈 如 : 吸烟 ) 或 遗传 倾向 引起 
的 单个 或 多 个 关卡 基因 的 突变 都 有 可 能 导致 肿瘤 的 发 生 。 大 部 分 
肿瘤 是 由 几 种 促 癌 因素 一 起 作用 的 结果 ， 而 单个 的 促 癌 因素 一 般 
不 会 引起 肿瘤 发 生 。 肿 瘤 发 生 的 机 制 可 以 归纳 为 以 下 三 点 : 1. 
DNA 修复 途径 的 损伤 ，2. 正常 基因 转化 为 肿瘤 基因 。3. 肿瘤 抑 
制 基因 失 活 。 总 之 ， 肿 瘤 的 发 生 与 基因 的 变异 是 紧密 联系 的 。 

在 研究 肿瘤 发 生机 制 的 过 程 中 ， 通 常 使 用 比较 正常 细胞 和 肿 
痛 细胞 之 间 的 差异 的 各 种 方法 ， 例 如 形态 学 的 差异 、 基 因 表 达 谱 
的 差异 以 及 蛋白 质 表达 谱 的 差异 ， 等 等 。 而 后 两 者 的 比较 研究 常 
常 建立 在 对 大 量 生物 数据 排列 分 析 的 基础 上 ， 数 据 的 繁复 促使 人 
们 寻求 计算 机 来 辅助 完成 。 生 物 信息 学 在 这 方面 提供 了 可 靠 的 分 
析 工 具 。 下 面试 举 一 例 (图 6-5) 来 说 明生 物 信息 学 在 肿瘤 学 研究 
中 的 重要 性 和 方法 。 

例如 : 研究 某 种 白血病 的 发 病 机 制 ， 可 以 选择 该 病 的 钼 患者 
作为 研究 对 象 。 采取 肿瘤 细胞 和 正常 对 照 细 胞 标本 ， 提 取 两 者 的 
mRNA, 通过 反 转 录 和 差异 显示 的 方法 分 离 出 两 者 之 间 表 达 差 异 
的 基因 ， 这 些 差异 的 基因 经 过 测序 后 得 到 其 序列 。 序 列 数据 就 可 
以 应 用 大 量 的 生物 信息 学 工具 来 分 析 。 对 于 上 述 实验 中 得 出 的 核 
苷 酸 序列 ， 首 先 要 明确 它 是 一 个 包含 了 全 编码 区 的 基因 ， 还 是 一 
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样品 采集 
《肿瘤 细胞 和 正常 细胞 ) -> 蛋白 质 提取 -~ 蛋白 质 组 分 析 


Y 
mRNA 提取 -> DNA Chips 分 析 -> 正常 细胞 与 肿瘤 细胞 差异 基因 表达 谱 


差异 基因 克隆 
核 彰 酸 序列 分 析 一 一 一 一 gsr 
(ORF Finder) 
j | 
全 长 基因 ~ UniGene 艇 
| 
Y DS < n 
编码 蛋白 的 同 源 分 析 b EST 拼 
(HAST FACTO SL | a 
| OR hei 
Virtual Northern 
编码 蛋白 的 特性 分 析 和 预测 
比较 不 同 组 织 和 
(EXPASY 的 分 析 预 测 工具 ) 细胞 中 的 表达 谱 


图 6-5 生物 信息 学 在 肿瘤 学 研究 中 的 应 用 方法 示例 


个 基因 的 部 分 序列 , 这 就 需要 使 用 类 似 ORF finder 的 软件 来 查找 
序列 中 是 否 存在 ORF 以 及 ORF 的 长 度 。 另外 , 还 要 识别 ORF 5’ 
端 和 3’ 端 序列 中 的 特征 ， 如: 接近 起 始 密码 子 的 序列 特征 是 否 符 
合 真 核 生物 基因 的 规律 ,3’ 端 序列 中 是 否 存在 PolyA 加 尾 信 号 以 
及 序列 中 包含 何 种 核酸 motif 等 。 这 些 特 征 都 是 识别 全 编码 区 的 
重要 标志 。 许 多 公司 的 商业 化 软件 包 都 提供 了 这 些 功 能 ， 如 : 
OMIGA fl DNASTAR 软件 包 。 这 些 软件 包 中 还 有 将 核酸 序列 翻 
译 为 蛋白 质 序列 的 功能 , 互联 网 上 也 有 类 似 的 工具 , 如 : EBI 提供 
的 翻译 工具 Translation Machine (http://www2. ebi. ac. uk/ 
translate/), 

如 果 经 分 析 后 发 现 该 序列 是 一 个 基因 的 部 分 序列 ， 那 么 这 个 
序列 就 是 一 个 表达 序列 标签 ， 它 代表 一 个 基因 。 这 个 序列 可 以 通 
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ib NCBI 的 BLAST 工具 查询 EST 数据 库 来 寻找 同 源 的 EST 序 
5j. 利用 同 源 EST 条 目的 序列 号 可 以 查询 UniGene 数据 库 , 这 样 
可 以 得 到 该 序列 对 应 的 UniGene f& CEST 数据库 中 同 源 的 序列 总 
结 为 UniGene $, 每 个 UniGene ERKE). EST 序列 还 
可 以 用 于 在 EST 数据 库 中 进行 序列 拼接 , 以 得 到 更 长 的 序列 , 其 
至 可 以 得 到 包含 全 编码 区 的 序列 ， 这 个 过 程 称 为 “in silico 
cloning", 英国 Human Genome Mapping Project Resource Centre 
的 生物 信息 学 服务 提供 了 ESTBLAST 软件 (http://www. 
hgmp. mre. ac. uk/Registered/Webpp/estblast/)， 这 个 软件 可 以 
将 输入 序列 与 EST 数据 库 比较 得 到 同 源 序列 ,并 通过 排列 将 这 些 
同 源 序列 拼接 为 重 释 群 得 到 更 长 的 序列 。 

如 果 分 析 后 发 现 该 序列 是 一 个 包含 全 编码 区 的 序列 ， 那 么 该 
序列 中 包含 的 开放 读 框 对 以 后 的 生物 信息 学 分 析 和 预测 非常 重 
要 。 开 放 读 框 的 核 苷 酸 序 列 可 以 翻译 为 氨基 酸 序列 ， 氨 基 酸 序列 
可 以 通过 BLAST sk FASTA 同 源 搜索 工具 在 蛋白 质数 据 库 中 查 
找 同 源 的 蛋白 质 。 这 样 ， 就 可 以 明确 得 到 的 氨基 酸 序列 是 否 是 一 
个 新 的 序列 ， 另 外 通过 了 解 同 源 蛋白 的 功能 还 可 以 预测 该 蛋白 的 
功能 。 

经 翻译 得 到 的 氨基 酸 序列 可 以 用 来 分 析 蛋 白质 的 许多 特性 ， 
EXPASY 网 站 (http://www.expasy.ch/tools/) 中 提供 了 大 量 的 
蛋白 质 分 析 软件 的 链接 , 其 中 包括 蛋白 质 一 般 特性 分 析 、DNA Bi 
译 工具 、 序 列 相似 性 搜索 、 蛋 白质 特征 (Prosite) 分 析 、 转 录 后 
修饰 预测 、 一 级 结构 分 析 、 二 级 结构 预测 、 三 级 结构 分 析 、 跨 膜 
区 预测 和 序列 排列 等 十 大 类 分 析 工 具 。 我 们 可 以 通过 这 些 工 具 得 
到 蛋白 质 的 大 量 信息 , 例如 , 分 析 蛋 白质 中 可 能 与 MHC I 类 分 子 
结合 的 肽 段 可 以 指导 以 后 的 抗原 肽 实验 ， 分 析 蛋 白质 中 是 否 有 信 
号 肽 可 以 预测 蛋白 质 是 否 是 分 泌 蛋 白 ; 分析 蛋 白质 中 含有 的 蛋白 
酶 切割 位 点 可 以 预测 蛋白 质 的 半衰期 ， 多 序列 排列 可 以 明确 蛋白 
质 之 间 的 进化 关系 ， 等 等 。 每 一 类 中 都 包括 多 种 分 析 工具 ， 在 同 
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一 类 分 析 中 可 以 使 用 不 同 的 工具 ， 分 析 结 果 可 以 相互 比较 得 出 最 
可 靠 的 信息 。 

由 于 人 类 基因 组 计划 已 经 完成 了 大 部 分 的 测序 工作 ， 所 以 分 
析 基 因 的 染色 体 定位 和 基因 组 结构 就 可 以 通过 同 源 比 较 的 方法 来 
实现 。 我 们 可 以 将 实验 中 得 到 的 基因 作为 探 针 进行 Northern Blot 
杂交 。 如 果 杂 交 结果 中 的 转录 子 长 度 与 实验 中 克隆 的 基因 长 度 非 
常 接近 ， 这 个 基因 的 序列 就 接近 全 长 的 mRNA 序列 ， 这 样 的 
mRNA 序列 就 适合 用 来 通过 同 源 搜索 进行 染色 体 定位 和 基因 组 
结构 分 析 。 方 法 非常 简单 ， 将 mRNA 序列 与 基因 组 数据 库 进行 
BLAST 同 源 比 较 就 可 以 完成 。 

某 个 基因 在 一 些 组 织 和 细胞 中 的 表达 情况 也 可 以 通过 生物 信 
息 学 工具 得 到 . NCI 的 CGAP 计划 中 提供 了 一 个 称 为 “Virtual 
Northern” 的 工具 ,这 个 工具 可 以 分 析 基 因 在 NCBI 构建 的 正常 和 
肿瘤 组 织 或 细胞 系 SAGE 文库 中 出 现 的 频率 。 这 些 不 同 的 频率 体 
现 了 该 基因 在 不 同 组 织 或 细胞 系 中 表达 水 平 的 高 低 ， 这 可 以 反映 
出 基因 在 肿瘤 发 生 中 的 作用 。 具 体操 作 方法 是 : 将 基因 序列 粘贴 
到 Virtual Northern 页 ij (http://www. ncbi. nlm. nih. gov/ 
SAGE/ sagevn. cgi) 的 窗口 中 , 然后 选择 限制 性 内 切 酶 (Nla 或 
Sau3A)， 点击 “submit” 链 接 后 可 以 得 到 查询 结果 。 查 询 结果 中 
显示 的 标签 是 SAGE 标签 , 它 应 当 符 合 输入 序列 的 标签 ,输入 序 
列 的 SAGE 标签 是 由 Virtual Northern 软件 自动 计算 选择 的 。 最 
终结 果 是 SAGE 标签 在 不 同 的 SAGE 文库 中 出 现 的 频率 , CRE 
了 含有 该 标签 的 基因 出 现 的 频率 ， 可 以 反映 该 基因 在 不 同 组 织 或 
细胞 系 中 的 表达 活性 。 

比较 正常 细胞 和 肿瘤 细胞 之 间 的 基因 表达 谱 差异 还 可 以 使 用 
基因 芯片 的 方法 。 基 因 芯 片 (gene chip) 也 叫 DNA 芯片 、DNA 
微 阵 列 CDNA microarray), 3K E tf Be PE 7i Coligonucleotide 
array)， 是 指 采用 原 位 合成 Gn situ synthesis) 或 显 微 点 样 手段 ， 
将 数 以 万 计 的 DNA 探 针 固化 于 支持 物 表 面 上 ,产生 二 维 DNA R 
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针 阵 列 ， 然 后 与 标记 的 样品 进行 杂交 ， 通 过 检测 杂交 信号 来 实现 
对 生物 样品 快速 、 平 行 、 高 效 地 检测 或 医学 诊断 。 由 于 常用 硅 芯 
片 作为 固 相 支持 物 , 且 在 制备 过 程 运用 了 计算 机 芯片 的 制备 技术 ， 
所 以 称 之 为 基因 芯片 技术 。 应 用 这 一 技术 要 先 分 别提 取 肿 瘤 细胞 
和 正常 细胞 的 mRNA , 标记 荧光 制备 探 针 , 再 与 DNA 芯片 杂交 ， 
杂交 信号 经 专门 的 检测 仪器 阅读 后 经 计算 机 分 析 得 出 结果 。 这 种 
方法 可 以 在 一 次 实验 中 分 析 数 千 至 数 万 种 基因 在 肿瘤 细胞 和 正常 
细胞 中 表达 的 差异 。Stanford 大 学 提供 了 专业 的 DNA 芯片 数据 
JẸ Stanford Microarray Database (SGD, http: //genome-www5. 
stanford. edu/MicroArray/SMD/). H Bij, DNA 芯片 在 肿瘤 研究 
中 的 应 用 非常 广泛 ， 并 且 产生 了 许多 重要 的 科研 成 果 。 一 个 很 好 
的 例子 是 美国 Dana-Farber 癌症 中 心 的 研究 人 员 利 用 基因 芯片 鉴 
定 出 一 种 新 型 白血病 ， 命 名 为 混合 谱系 白血病 (Mixed Lineage 
Leukemia，MLL)。 这 种 白血病 的 特征 是 最 初 对 化 疗 有 一 定 的 反 
应 , 但 一 旦 复发 却 可 致命 ， 预 后 很 差 。 以 前 ， 临 床 医生 将 这 种 白 
血 病 归 类 到 急性 淋巴 细胞 性 白血病 ALL) 之 中 。 研 究 人 员 应 用 
基因 芯片 技术 证 实 混合 谱系 白血病 的 基因 表达 谱 与 普通 急性 淋巴 
细胞 性 白血病 有 明显 的 不 同 。 与 ALL BAHE, MLL 患者 细胞 
中 有 将 近 1000 个 “沉默 基因 ”或 处 于 失 活 状态 的 基因 ， 同 时 还 有 
200 个 基因 处 于 过 度 激活 状态 。 这 些 研究 结果 对 于 这 种 特殊 白 血 
病 的 诊断 和 治疗 都 非常 重要 。 

研究 肿瘤 发 生机 制 还 可 以 使 用 蛋白 质 组 学 的 方法 ， 这 种 方法 
可 以 用 来 比较 肿瘤 细胞 和 正常 细胞 之 间 和 蛋白 质 表达 谱 的 差异 。 
EXPASY 的 二 维 凝 胶 电泳 数据 库 提供 了 大 量 的 肿瘤 细胞 和 正常 
细胞 蛋白 质 表 达 谱 信息 ， 可 以 用 于 这 方面 的 研究 ， 有 关内 容 在 第 
五 章 第 一 节 中 有 详细 介绍 。 


在 科学 技术 的 发 展 中 ， 各 种 学 科 之 间 相 互 借鉴 产生 的 交叉 学 
科 、 边缘 学 科 表 现 出 蓬勃 的 生机 .。 就 生物 信息 学 自身 的 研究 而 言 ， 
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图 6-6 正常 细胞 和 肿瘤 细胞 基因 表达 谱 的 差异 , 在 图 中 , 与 正常 细 
胞 相 比 , 基因 A 在 肿瘤 细胞 中 表达 下 调 , 而 基因 B 在 肿瘤 细 
胞 中 表达 上 调 ， 而 基因 C 在 肿瘤 细胞 中 发 生 了 突变 〈 摘 自 
http: //cgap. nci. nih. gov/Infc/ concept4) 。 
随 着 人 类 基因 组 计划 等 大 规模 测序 计划 的 进行 , 随 着 更 多 的 数学 、 
统计 学 、 计 算 科学 、 数 据 库 技术 被 借鉴 进来 ， 随 着 更 多 、 更 详细 、 
更 准确 的 生物 学 知识 整合 进来 ， 生 物 信息 学 将 为 揭示 生物 世界 的 
奥秘 , 为 利用 生物 资源 提供 新 的 手段 做 出 应 有 的 贡献 ; 另 一 方面 ， 
生物 信息 学 作为 传统 分 子 生物 学 的 辅助 工具 的 作用 不 容 忽 视 ， 生 
物 信息 学 工作 者 应 该 深入 到 实验 室 中 去 ， 了 解 各 种 实验 操作 的 原 
理 、 方 法 ， 从 中 找到 开发 新 数据 库 、 软 件 的 线索 ， 帮 助 分 子 生物 
学 家 更 高 效 地 完成 实验 。 这 两 方面 相辅相成 ， 密 不 可 分 。 
总 之 ,生物 信息 学 作为 一 门 新 兴学 科 有 着 美好 的 前 景 ， 也 面 
临 着 巨大 的 挑战 ， 如 何 使 她 发 挥 更 大 的 作用 ， 是 我 们 面前 的 一 个 
诱 人 的 课题 。 


参考 文献 ; 


]. Shepherd GM. et al. The human Brain Project: 


*192* 生物 信息 学 概论 


10 


12 


neuroinformatics tools for integrating, searching and 
modeling multidisciplinary neuroscinece data. Trends 
Neurosci. 1998. 21 (11): 460-468 

Yang WP, et al. KvLQT1, a voltage-gated potassium 
channel responsible for human cardiac arrhythmias. Proc 
Natl Acad Sci USA, 1997, 94 (8); 4017-4021 

Badger J, et al. New features and enhancements in the X- 
PLOR compite program. Proteins, 1999, 35 (1): 25-33 
Sussman JL, et al. Protein Data Bank (PDB): database of 
three-dimensional structural information of biological 
macromolecules. Acta Crystallogr D Biol Crystallogr, 
1998, 51 (1): 1078-1084 


. Benson DA, et al. GenBank. Nucleic Acid Res, 1999, 27 


(1); 12-17 


. Bairoch A, Apweiler R. The SWISS-PROT protein sequence 


data bank and its supplement TrEMBL in 1999. Nucleic 
Acid Res, 1999, 27 (1): 49-54 


- Richardson DC, Richardson JS. The kinemage: a tool for 


scientific communication. Protein Sci, 1992, 1 (1): 3-9 
Sayle RA, Milner-White EJ. RASMOL: biomolecular 
graphics for all. Trends Biochem Sci, 1995, 20 (9): 374 
Cao QL, et al. Enhanced comprehension of dynamic 
cardiovascular anatomy by three-dimensional 
echocardiography with the use of mixed shading 
techniques. Echocardiography, 1994, 11 (6): 627-633 

. Slavin KV. The visible human project. Surg Neurol, 1997, 

48 (6): 638-639 

. 交 隆 飞 、 孙 之 荣 ， 蛋 白质 分 子 结构 ， 清 华 大 学 出 版 社 ，1999 
. BKE, BHA, 受 体 药物 筛选 研究 进展 , 中 国药 学 杂志 , 1999， 


13. 


14. 


15. 


16. 


17. 


BAM ”生物 信息 学 在 生物 学 中 的 其 它 应 用 * 193+ 


1: 6-8 

张 亮 仁 ， 以 结构 为 基础 的 药物 设计 与 分 子 模 拟 ， 药 物 学 研究 
与 展望 ， 科 学 出 版 社 ，1999 

吴县 ， 生 物 信 息 学 的 发 展 ， 中 国 科学 院 院 刊 ，1998，3: 183- 
185 

Tatusov RL, et al. A genomic perspective on protein 
families. Science, 1997, 278: 631-637 

Koonin SE. An independent perspective on the Human 
Genome Project. Science, 1998, 279: 36-37 

Armstrong SA, et al. MLL translocations specify a distinct 
gere expression profile that distinguishes a unique leukemia. 
Nat Genet, 2002, 30 (1): 41-7 


*194* 


生物 信息 学 概论 


附录 一 ”分 子 生物 学 数据 库 一 览 表 


数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 

主要 序列 储存 数 

据 库 

DNA Data Bank http://www. ddbj. nig. ac. jp/ 包括 所 有 核酸 蛋白 

of Japan (DDBJ) 序列 ,国际 核酸 序列 
数据 库 协作 组 成 员 

EMBL Nucleotide http://www. ebi. ac. uk/embl. html 包括 所 有 核酸 蛋白 

Sequence 序列 国际 核酸 序列 

Database 数据 库 协 作 组 成 员 

GenBank http://www. nebi. nlm. nih. gov/ 包括 所 有 核酸 蛋白 
序列 国际 核酸 序列 
数据 库 协 作 组 成 员 

Genome Sequence http://www. negr. org/research/sequence/ 包括 所 有 核酸 蛋白 

Database (GSDB) 序列 

Ensembl http://www. ensembl. org/ 注解 的 人 类 基因 组 
序列 数据 

STACK http://www. sanbi. ac. za/ Dbases. html EIRENE 

TIGR Gene http://www. tigr. org/tdb/index. htm! FIRLAR 

Indices 

UniGene http://www. ncbi. nlm. nih. gov/UniGene/ FIRERK 

比较 基因 组 学 

Clusters of http://www. nebi. nlm. nih. gov/COG/ 根据 44 种 已 完成 基 

Orthologous 因 组 蛋白 的 进化 树 

Groups (COG) 分 类 A 

Comparative http://www. unil. ch/igbm/genomics/genometrics. html 全 基因 组 的 生物 统 

Genometrics 计 学 比较 

euGenes http: //iubio. bo. indiana. edu :89/ erat HM i 
[Li 

Genome http: //gib. genes. nig. ac. jp/ 已 完成 的 微生物 基 

Information 因 组 比较 分 析 

Broker 

Gramene http://www. gramene. org/ 禾 本 植物 的 比较 基 
因 组 分 析 

Homophila http: //komophila. sdsc. edu/ 人 类 疾病 基因 和 果 


蝇 基 因 的 关系 
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数据 库 名 称 和 分 类 互联 网 网址 内 容 介绍 

XREFdb http://www. ncbi. nlm. nih. gov/XREFdb/ 模式 生物 遗传 学 和 
哺乳 动物 表 型 的 相 

基因 表达 互 参考 

ASDB http: //cbeg. nerse. gov/asdb 基因 不 同 剪 切 方式 
ee ig 

Axeldb http://www. dkfr-heidelberg. de/abt0135/axeldb. htm tn LLIETE 

BodyMap http; / /bodymap. ims. u/ AD DREREA 

EpoDB http://www. cbil. upenn. edu/epodb/ LL 3E E s 
基因 表达 

EPConDB http://www. cbil. upenn. ecu/EPConDB i Ct 

FlyView http: //pbio07. uni/ RMR A AIRES 

Gene Expression http://www. informatics. jax. org/searches/ 小 鼠 基因 表达 和 基 

Database (GXD) —_gxdindex_form. shtml AA 

Gene Expression http://www. ncbi. nlm. nih. gov/geo 基因 表达 和 杂交 微 

Omnibus (GEO) 阵列 数据 库 

Hugelndex http://www. hugeindex. org/ 人 类 基因 在 正常 组 
织 中 的 表达 水 平 

Interferon http://www. lerner. ccf. org/labs/williams/ 干扰 素 诱导 或 处 理 

Stimulated Gene — xchip-html. cgi 后 的 基因 表达 

Database 

Kidney http://www. ana. ed. ac. uk/anatomy/database/ 。 肾 发 育 和 基因 表达 

Development kidbase/kidhome. html 

Database 

MAGEST http; //star. scl. kyoto-u. ac. jp/magest/ E825 (Halocynthia 
roretzi) 基 因 表达 

MethDB http://www. methdb. de/ DNA 甲 基 化 数据 和 
特征 谱 

Mouse Atlas and http://genex.hgu. mre. ac. uk/ 不 同 部 位 基因 表达 

Gene Expression 数据 图 谱 

Database 

READ http; //read. gsc. riken. go. jp/READ/ iN 表达 阵列 数 

PEDB http: //chromz. mbt. washington. edu/PEDB/ 正常 和 异常 前 列 腺 
基因 表达 

RECODE http: //recode. genetics. utah. edu/ 


表达 中 具有 程序 性 


‘So? Oar TL LOT Ie Ee rt mage ope quonam 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 

Stanford http://genome-www. stanford. edu/microarray X8 DNA 芯片 实 

Microarray 验 的 原始 和 标准 化 

Database 的 数据 

TRIPLES http; / /ygac. med. yale. edu/triples/triples. htm 酵母 转 座 子 插入 表 
型 ,定位 和 表达 

Tooth http: //bite-it. helsinki. fi/ 口腔 组 织 的 基因 表 

Development 达 

Database 

yMGV http://www. transcriptome, ens. fr/ymgv/ 酵母 微 阵列 数据 和 
开发 工具 

基因 识别 和 结构 

AllGenes http://www. allgenes. org/ AB) REARS 
整 和 基因 转录 和 和 蛋 
白 注解 

Ares Lab Intron http://www. cse. ucsc. edu/research/compbio/ Bah OKA SF 

Site yeast _ introns. html 剪 切 位 点 数据 

AsMamDB http: //166. 111. 30. 65/ASMAMDB. html AEN OE AB M 
乳 动物 基因 

COMPEL http: //compel. bionet. nse. ru/ 复合 调节 元 件 

CUTG htip: //www. kazusa. or. jp/codon/ HAF BER 

DBTBS http; //elmo. ims. u-tokyo. ac. jp/dbtbs/ RACK 结合 因子 

DBTSS * http; //elmo. ims. u-tokyo. ac. jp/dbtss/ 转录 起 始 位 点 

EID http: //meb. harvard. edu/gilbert/EID/ REULETRE 

EPD http; //www. epd. isb-sib. ch/ 真 核 生物 POL 开启 
动 子 和 实验 检测 的 
转录 起 始 位 点 

Exlnt http: //intron. bic. nus. edu. sg/exint/exint. html 真 核 基因 外 显 子 内 
含 子 结构 

HUNT http://www. hri. co. jp/HUNT 已 注解 的 全 长 
cDNA 序列 

FUGOID hitp: //wnt. cc. utexas. edu/~ ifmr530/introndata/ — 细胞 器 内 含 子 的 功 

main. htm 能 结构 信息 

Gene Resource http://grl. gi. k. u-tokyo. zc. jp/ 用 已 完成 的 人 类 序 

Locator 列 排列 ESTs 

HS3D http://www. sci. unisannio. it /docenti/rampone/ 人 类 外 显 子 、 内 含 子 
ANDER 

HvrBase http://www. hvrbase. org/ 灵 长 类 mtDNA f 
制 区 序列 

IDB/IEDB http: //nutmeg. bio. indiana. edu/intron/index. html 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
PALSdb http; //palsdb. ym. edu. tw/ a EEDI 
PLACE http://www. dna. affrc. go. jp/htdocs/PLACE KERAKENT 
元 
PlantCARE http: //sphinx. rug. ac. be: 8080/PlantCARE/ 植物 顺 式 激活 调节 
index. htm 元 件 
PromEC http; //bioinfo. md. huji. ac. il/marg/promec ABH mRNA 启 
动 子 与 实验 确定 的 
转录 起 始 位 点 
RRNDB http; //rrndb. cme. msu. edu/ 原核 核糖 体 RNA 
RAF HEF 
STRBase http://www. cstl. nist. gov/div831 /strbase/ A [113954 
TransCOMPEL http: //compel. bionet. nsc. ru/FuaSite/ 真 核 生物 基因 转录 
CompelPatternSearch. html 调节 元 件 
SpliceDB http: //genomic. sanger. ac. uk/spldb/ 经 典 和 非 经 典 的 哺 
SpliceDB. html Amon LR 
TRRD htip: //wwwmgs. bionet. nsc. ru/mgs /dbases /trrd4 m 因 转 录 调节 
TransTerm http: //uther. otago. ac. nz/Transterm. html Fig 法 起 始 和 
VIDA http://www. biochem. ucl. ac. uk/bsm/virus- 病毒 基因 组 开放 读 
database/VIDA. htm! E 
WormBase http://www. wormbase. org/ ean aee 
YIDB http://www. EMBL-Heidelberg. DE/ 酵母 核 和 线粒体 内 
Externallnfo/seraphin/yidb. html 含 子 序列 
rSNP Guide http: //wwwmgs. bionet. nsc. ru/mgs/systems/ 调节 基因 区 域 的 单 
遗传 学 和 物理 图 rsap/ 核 苷 酸 多 态 性 
it 
DRESH http://www. tigem. it/LOCAL/drosophila/dros. 与 果 蝇 突变 基因 同 
html 源 的 人 cDNA 克隆 
G3-RH http: //www-shge. stanford. edu/RH/ 斯 坦 福 大 学 G3 和 
TNG 放射 杂交 图 谱 
GB4-RH http://www. sanger. ac. uk/Software/Rhserver/ Genebridge4 (GB4) 
Rhservers. html 人 放射 杂交 图 谱 
GDB http: //www. gdb. org/ jee 
GenAtlas http://www. citi2. fr/GENATLAS/ AREN praa 
GenMapDB http: //genomics. med. upenn. edu/genmapdb 已 作 图 的 人 类 BAC 


qo qom HORE ee ee 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 

GeneMap 99 http://www. ncbi. nlm. nih. gov/genemap/ 国际 放射 杂交 协议 
人 类 基因 图 谱 

HuGeMap http://www. infobiogen. fr/services/Hugemap 人 基因 组 遗传 和 物 
理 图 谱 数 据 

IXDB http: //ixdb. mpimg-berlin-dahlem. mpg. de/ A 染色 体 X 的 物 
E 

RHdb http://www. ebi. ac. uk/RHdb 放射 杂交 图 谱 数 据 

基因 组 数据 库 

ACeDB http://www. senger. ac. uk/Software/Acedb/ 美丽 线虫 ,啤酒 酵母 
和 人 的 序列 和 基因 
组 信息 

AMmtDB http://bio-www. ba. enr. it:8000/BioWWW/ 后 生动 物 线粒体 

#AMMTDB DNA 序列 

Arabidopsis http: //www. arabidopsis. org/ 拟 南 草 基因 组 

Information 

Resource 

(TAIR) 

ArkDB http://www. thearkdb. org/genome _ mapping. 农场 动物 基因 组 数 

html 据 库 

Celera Discovery http://www. celera. com/genomics/academic/ 整 和 的 、 以 网 络 为 基 

System 础 的 发 现 平台 

Comprehensive http://www. tigr. org/tigr-scripts/CMR2/ 已 完成 的 微生物 基 

Microbial CMRHomePage. spl 因 组 数据 

Resource 

CropNet http: //ukerop. net/ zeahenet 

CyanoBase http: / /www. kazusa. or. jp/eyano/ P MGE sp. X 

Dictyostelium http: //dictygenome. bcm. tmc. edu/ Dictyostelium 基因 

Genome 组 资源 

Sequencing 

Project 

EcoGene http: //bmb. med. miami. edu/EcoGene/EcoWeb/ AB 杆菌 K-12 序 

EMGlib http: //pbil. univ-lyon]. fr/emglib/emglib. html 已 完成 测序 的 细菌 、 
fe 质 和 酵母 基因 

FANTOM2 http; //fantom. gsc. riken. go. jp/fantom2/doc/ RIKEN 小 鼠 基因 百 
科 全 书 计划 (小 鼠 
cDNA 克隆 的 功能 
注解 ) 

FlyBase http: //www. fruitfly. org/ Jum 列 和 基因 组 


Se tee E 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
Full-Malaria http;//133. 11. 149. 55/ ERR AS 
ZK DNA 文库 
GOBASE http; //megasun. bch. umontreal. ca/gobase/gobase. asus 因 组 数据 
html 
GOLD http; / /igweb. integratedgenomics. com/GOLD/ 完成 和 正在 进行 的 
基因 组 计划 信息 
HERV http: //herv. img. cas. cz/ AIRERENE 
HIV Sequence — http: / /hiv-web. lanl. gov/ HIV RNA 序列 
Database 
HOWDY http; //gdb. tokyo. jst. go. jp/ HOWDY 整 和 人 类 基因 组 信 
Fe 
Human BAC http://www. tigr.org/tdb/humgen/bac_end_search/ ida BAC 
Ends Database. bac- end. intro. html 末端 序列 
1CB http://www. mbio. co. jp/icb i a 白 编码 确认 
和 分 类 细菌 
INE http: //rgp. dna. affrc. go. jp/giot /INE. html eee fant 
MagnaportheDB http://www. cals. nesu. edu/fungel — genomics/ t L] M X di 
mgdatabase/int. htm agnaporthe grisea 
Snganee m 
MatDB http: //mips. gsf. de/proj/thal/db/ IAE 因 组 原始 
Medicago https: //xgi. negr. org/mgi 模式 豆 类 生物 
Genome Initiative Medicago 的 ESTs、 
(MGI) real 
MITOMAP http://www. gen. emory. edu/mitomap. html 人 线粒体 基因 组 
MITOP http://websvr. mips. biochem. mpg. de/proj/ 。 线粒体 蛋白 ,基因 和 
medgen/mitop 疾病 
Mendel Database — http: //jiio6. jic. bbsrc. ac. uk/ 与 植物 基因 家 族 数 
据 相 关 的 EST 和 
STS 数据 库 
MitBASE http://www3. ebi. ac. uk/Research/Mitbase/ BEN 物种 
mitbase. pl 间 的 变异 和 突变 
MitoDat http://www-lecb. neiferf. gov/mitoDat/ 线粒体 蛋白 ,主要 是 
AREA 
MitoNuc/ http: //bio-www. ba. cnr. it;8000/srs6/ 编码 线粒体 蛋白 的 
MitoAln BER 


Mouse Genome http://www. informatics. jax. org/ Jot FEB 
Database (MGD) i 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 

Munich http://www. mips. biochem. mpg. de/ 蛋白 和 基因 组 序列 

Information 

Center for 

Protein Sequences 

(MIPS) 

NRSub http; //pbil. univ-lyonl. fr/rrsub/arsub. html B. subtilis 基因 组 

Oryzabase http://www. shigen. nig. ac. jp/rice/oryzabase/ BEERS ALA 
组 

PlasmoDB http: //plasmodb. org/ 完 原 虫 基因 组 

Phytophthora https: //xgi. negr. org/pgc Phytophthora 

Genome infestans 

Consortium Phytophthora sojae 

Database fy ESTs 

Proteome http://www. proteome. com/ 模式 生物 、 致 病原 和 

BioKnowledge 哺乳 动物 蛋白 组 

Library 

Rat Genome http://rgd. mew. edu/ 大 鼠 遗 传 学 和 基因 

Database 组 学 数据 

RiceGAAS http; //RiceGaas. dna. affrc. go. jp/ 水 稻 基因 组 序列 和 
预测 的 基因 组 结构 

RsGDB http: //www-mmg. med. uth. tme. edu/sphaeroides Rhodobacter 
sphaeroides 基因 组 

Saccharomyces http: //genome-www. stanford. edu/Saccharomyces — 啤酒 酵母 基因 组 

Genome Database 

(SGD) 

SubtiList http: //genolist. pasteur. {r/SubtiList/ 


TIGR Microbial 
Database 

The Arabidopsis 
Information 
Resource(TAIR) 
Wanda 


WILMA 

ZFIN 

ZmDB 

分 子 间 相 互 作用 


Biomolecular 
Interaction 
Network 
Database(BIND) 


http; //www. tigr. org/tdb/mdb/mdbcomplete. html 


http://www. arabidopsis. org/ 


http://www. evolutionsbiologie. uni-konstanz. de/ 
Wanda/ 
hitp; //www. came. sbg. ac. at/wilma/ 


http://www. zfin. org/ 
http: //zmdb. iastate. edu/ 


http: //binddb. org/ 


B eitile 168 基因 
微生物 基因 组 和 染 
色 体 

TROFERA 


复制 的 鱼 类 基因 


C. elegans 注 各 
TRALHA 
玉米 基因 组 


分 子 相 互 作用 、 复 合 
物 和 代谢 途径 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
DIP tip: //dip. doe-mbi. ucla, edu/ 蛋白 -蛋白 相互 作用 

目录 
DPinteract http; / /arep. med. harvard. edu/dpinteract/ KB HH DNA 结 
合 蛋白 结合 位 点 
Database of http://www. mpimg-berlin-dahlem. mpg. de/~ ag ”核糖 体 交 联 数据 
Ribosomal ribo/ag brimacombe/d:c/ 
Crosslinks(DRC) 7 = 
MHC-Peptide http: //surya. bic. nus. edu. sg/mpid MHC IXA 11 84} 
Interaction 子 一 多 软 复合 
Database 
代谢 途径 和 细胞 
调节 
ENZYME http: //www. expasy. ch/enzyme/ 酶 的 分 类 命名 
EcoCyc http; //ecocyc. pangeasystems. com/ecocyc/ XB H8 K-12 基 
i ERR 
EpoDB http://www. cbil. upenn. edu/EpoDB/ re Fi 胞 生成 的 
FlyN http; //gifts. univ-mrs. fr/FlyNets/FlyNets home 244} T fal #44 E 
yes . pagé. html 用 
GeneNet http: //wwwmgs. bionet. nsc. ru/mgs/systems/ bee 
genenet/ 织 
Klotho http://www. ibc. wustl. edu/klotho/ IAE tunes 
和 
Kyoto http://www. genome. ad. jp/kegg 代谢 和 调节 途 色 
Encyclopedia of 
Genes and 
Genomes 
(KEGG) 
LIGAND http: //www. genome. ad. jp/dbget /ligand. html WE ROAM 
MetaCyc. http: //ecocye. org/ A by Fd 的 代谢 途 
PathDB http://www. negr. org/pathdb seas. ,化 合 
RegulonDB http://www. cin. unam. mx/Computational — ABERAT 
Biology/regulondb/ 和 操纵 子 组 织 
UM-BBD http://www. labmed. umn. edu/umbbd/ 微生物 生物 催化 反 
应 和 生物 降解 途径 
WIT2 hitp: //wit. mes. anl. gov/WIT2/ 


代谢 模型 的 功能 治 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
实 变 数据 库 
16S and 23S http://ribosome. fandm. edu/ 16S, 23S 核糖 体 
Ribosomal RNA RNA 突变 数据 库 
Mutation 
Databases 
ALFRED http; //alfred. med. yale. edu/alfred/index. asp 等 位 基因 频率 和 
DNA 多 态 性 
Androgen http://www. megill. ca/androgendb/ EXEKXEXRE 
Receptor Gene 突变 
Mutations 
Database 
Asthma Gene http://cooke. gsf. de/asthmagen/main. cim ERARE AN 
Database 连锁 和 突变 遗传 学 
Asthma and http: //cooke. gsf. de/asthmagen/main. cim 哮 噶 和 变态 反应 的 
Allergy Database 连锁 和 突变 遗传 学 
Atlas of Genetics http://www. infobiogen. fr/services/chromcancer/ 肿瘤 染色 体 异常 
and Cytogenetics 
in Oncology and 
Haematology 
BTKbase http://www. uta. fi/laitokset /imt/bioinfo/ X 染色 体 连锁 的 了 
BTKbase/ 3z 白 血 症 突变 记 
CASRDB http: //data. mch. megill. ca/casrdb/ FARRER EK 
钙 血 症 、 严 重 原 发 性 
新 生 儿 高 甲状 旁 腺 
LII 133 1 
EA BAL ARE 
Cytokine Gene http://www. pam. bris. ac. uk/services/GAl/ 细胞 因子 基因 多 态 
Polymorphism cytokine4. htm 性 ,体内 表达 和 疾病 
Database 相关 研究 
Database of http://www. l2. cuni. cz/win/projects/germline — A il #0 4 I HK 
Germline p53 mut p53.htm p53 基因 突变 
Mutations ii 
dbSNP http://www. ncbi. nim. nih. gov/SNP/ BUTRESE 
DT40 http: //genetics. hpi. uni-hamburg. de/dt40. html 鸡 DT40 B 4 E 
EL i 
FLAGdb/FST http: //genoplante-in‘o. infobiogen. fr / I T-DNA 转 
GRAP Mutant http: //tinyGRAP. uit. no/GRAP/ 家 族 性 G 蛋白 偶 联 
Databases LAR 
jSNP http: //snp. ims. u-tokyo. ac. jp/ 日 本 人 群 的 单 核 苷 


ee ee C MCN 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
HGVbase http: / /hgvbase. cgr. ki. se/ 基因 序列 多 态 性 
HIV-RT hep: //hivdb, stanford edu/hiv/ Teena 
Haemophila B http://www. umds. ac. uk/molgen/haemBdatabase. 因子 IX 基因 的 点 突 
Mutation htm 变 , 短 重复 和 缺失 数 
Database 据 
Human Gene http://www. uwem. ac. uk/uwem/mg/hgmd0.html 。 人 类 遗传 疾病 相关 
Mutation 的 已 知 基因 病变 
Database 
(HGMD) 


Allelic — Variant 
Database. 


Human — PAX6 http://www. hgu. mre. ac. uk/Softdata/PAX6/ A PAX6 基因 的 突 
Allelic Variant 变 


Human — PAX2 http://www. hgu. mre. ac. uk/Softdata/PAX2/ 4 PAX? 基因 的 突 


Database 

Human Type | http://www. le. ac. uk/genetics/collagen/ ALKA MARK 

and Type TI 基因 突变 

Collagen 

Mutation 

Database 

HyrBase http: //db, eva. mpg. de/Hyrbase/ RK mRNA 榨 
制 区 序列 

KMDB http://mutview, dmb. med. keio. ac. jp/mutview3/ ”人 类 眼疾 病 基因 的 

kmeyedb/index. html 突变 
KinMutBase http://www. uta. fi/imt /bioinfo/KinMutBase/ in 的 蛋白 激酶 突 
MmtDB http; //www. ba. cnr. it/~areamt08/ 原生 质 线粒体 DNA 
MmtDBWWW. btm 的 突变 和 多 态 性 

Mutation Spectra http://info. med. yale. edu/mutbase/ LER LN I] 

Database - i 物 基因 的 突 

NCL Mutations http://www. ucl. ac. uk/ncl/ WE SRR 
(NCL) 基 因 的 突变 
和 多 态 性 

Online Mendelian http://www. ncbi. nim. nih. gov/Omim/ 人 类 遗传 和 基因 组 

Inheritance — in 疾病 目录 

Man 

PAHdb http://www. mcgill. ca/pahdb/ XHERRELN T 
点 的 突变 

PHEXdb http: //data. mch. megill. ca/phexdb 导致 X 染 色 体 连锁 
高 磷 血 症 的 PHEX 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 

PMD http; //pmd. ddbj. nig. ac. jp/ 蛋白 突变 数据 汇编 

PTCHI Mutation http://www. cybergene. se/PTCH/ptchbase. html  PTCH] 突变 和 单 核 

Database HRS SHE 

RBI Gene http://www. d-lohmann. de/Rb/ ARBI 基因 突变 

Mutation 

Database. 

Ribosomal RNA http://ribosome. fandm. edu/ 16S 和 235 核糖 体 

Mutational RNA 突变 数据 库 

Database 

SV40 Large T- http://bigdaddy. bio. pitt. edu/SV40/ SV40 X T 抗原 基 

Antigen Mutant 因 的 突变 

Database 

iARC p53 http://www. iare. fr/p53/ 文献 报道 的 人 p53 

Database "Prisa 

p53 Databases http; //metalab. unc. edu/dnam/mainpage. html A p53 和 hprt 基因 
RE WERKE 
动物 lacl 和 lacZ 突 
变 

病理 学 

AngioDB http: //angiodb. snu. ac. kr/ 血管 生成 和 血管 生 
成 相关 分 子 数据 库 

FIMM http: //sdme. krdl. org. sg:8080/fimm/ iu 免疫 学 数 

HCForum http: //heforum. imag. fr/welcome _ eng. html 1s 细胞 遗传 学 数 

IDR http://www. uta. fi/imt/bioinfo/idr/ we 

Mouse Tumor http;//tumor. informatics. jax. org/ 小 鼠 肿 瘤 命名 、 分 

Biology Database 类 、 发 病 率 \ 病 理 和 

(MTB) 遗传 因子 

Oral Cancer Gene http://www. tumor-gene. org/Oral/oral. html Hn EM A XAR 

Database 的 细胞 ,分 子 和 生物 
学 数据 

PEDB htrp://chroma. mbt. washington. edu/PEDB/ 来 自前 列 腺 组 织 和 
特异 细胞 类 型 
cDNA 文库 的 序列 

Tumor Gene http://www. tumor-gene. org/tgdf. html 各 种 肿瘤 相关 基因 

Family Databases 的 细胞 \ 分 子 和 生物 

(TGDBs) 学 数据 

HARKER 

AARSDB http; //rose. man. poznan. pl /aars /index. html 


tRNA BUE Ik 
序列 
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互联 网 网 址 


内 容 介绍 


http: //ir2lcb. cnrs-mrs. fr/ABCdb/ 
http://www. arac-xyls. org/ 


http; //wwwmgs. bionet. nsc. ru/mgs/gnw/aspd 


http://www. brenda. uni-koeln. de/ 


http://www. chemie. uni-marburg. de/~csdbase 


http: //luggagefast. Stanford. EDU /group/ 
arabprotein/ 


http://www. columbia. edu/~ej67/dbhome. htm 


http://www. ensam. inra. fr/cholinesterase/ 
http://www. biomedcomp. com/GPCR. html 
http://www. gper. org/FUNPEP/db 
http://www. cmbi. nl/exprot 

http; //swift. embl-heidelberg. de/7tm/ 
http: / /genprotec. mbl. edu/ 

http; //hiv-web. lanl. gov/immunology/ 


http://www. kazusa. or. jp/huge/ 


http; //genome. nhgri. nih. gov/histones/ 


http; //copan. bioz. unibas. ch/homeo. html 


http: //genome. nhgri. nih. gov/homeodomain 


ATP 结合 蛋白 超 家 
族 转运 蛋白 
细菌 中 AraC/XylS 


家 族 的 阳性 调节 子 
ST RARENE 


酶 的 功能 数据 
包含 冷 休克 结构 域 
的 蛋白 

已 注解 的 拟 南 共 编 
码 序列 

DEAD-box, DEAH- 
be 和 DexH-box 蛋 
[LAKES 
以 及 相关 栈 


G 蛋白 偶 联 和 受 体 在 
细胞 系 中 的 表达 


低 复杂 性 和 复合 倾 
向 蛋白 序列 
CRESTRNR 


G 蛋白 偶 联 受 体 


大 肠 杆菌 K-12 基 
因 组 ,基因 产物 和 同 
源 序 列 


HIV 表 位 


人 类 大 分 子 蛋白 (> 
x * cDNA FF 
5i 


组 蛋白 和 组 蛋白 折 
要 序列 和 结构 


与 Homeobox 蛋白 
分 类 和 进化 相关 的 
信息 


Homeodomain fF 
列 、 结 构 和 相关 遗传 
和 基因 组 


和 人 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
IMGT hetp://imgt. cines. fr:8104/ ARASH RA 
物 免疫 球 蛋 白 ,T 细 
E ZEA MHC FF 
IMGT/HLA http://www. ebi. ac. uk/imgt/hla/ 人 类 主要 组 织 相 容 
性 复合 体 
InBase http://www. neb. com/neb/inteins. html Intervening 蛋白 序 
列 (inteins) 和 基 序 
Kabat Database http: //immuno. bme. nwu. edu/ FATARMAA 
LGICdb http://www. pasteur. fr/recherche/banques/LGIC/ — 配 体 开放 的 离子 通 
LGIC. html 道 亚 基 序列 
MEROPS http: //www. merops. co. uk/ 蛋白 水 解 酶 (蛋白 酶 
RD 
MHCPEP http; / /wehih. wehi. edu. au/mhcpep/ MHC #4 
Membrane http; //biophys. bio. tuat. ac. jp/ohshima/database/ — 膜 蛋白 序列 跨 膜 区 
Protein Database 和 结构 
MetaFam http; //metafam. ahc. umn. edu/ 整 和 蛋白 家 族 信息 
MHCBN http://www. imtech. res. in/raghava/mhcbn/ Me iioi 
Nuclear http; / /nrr. georgetown. edu/nrr/nrr. html 核 受 体 超 家 族 
Receptor 
Resource 
NUREBASE http://www. ens-lyon. fr/LBMC/laudet/nurebase. 核 央 激素 受 体 
html 
Olfactory http; //ycmi. med. yale. edu/senselzb/ordb/ 嗅觉 受 体 样 分 子 序 
Receptor 列 
Database 
ooTFD http://www. ifti. org/ PIETRERA 
PKR http://pkr. sdsc. edu/ 蛋白 激酶 序列 、 栈 
学 ,遗传 学 和 分 子 结 
构 性 质 
PPMdb http; //sphinx. rug. ac. be:8080/ppmdb/index.htm| — 拟 南 芥 胞 浆 膜 蛋 白 
序列 和 表达 数据 
PROMISE http: / /bioinf. leeds. ac. uk/promise/ 蛋白 活性 位 点 的 活 
化 中 心 和 金属 离子 
Peptaibol http://www. cryst. bbk. ac. uk/peptaibol/welcome. ”抗生素 多 软 序 列 
html 


PhosphoBase http://www. cbs. dtu. dk/dstabases/PhosphoBase/ ”蛋白 磷酸 化 位 点 
PLANT-Pls http: //bighost. area. ba. cnr. it/PLANT-Pls/ ASEAR MAR 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
PlantsP http://plantsp, sdsc. edu/ 植物 蛋白 激酶 和 蛋 
BREÉÉ 
Prolysis http: //delphi. phys. univ-tours. fr/Prolysis/ EAS. BARAT 
DEGLLLEI 
Protein http: /; pir. georgetown. edu/ 全 面 注解 的 非 宛 余 
Information 蛋白 序列 数据 库 
Resource(PIR) 
Ribonuclease P http://www. mbio. nesu. edu/RNaseP/home.htm| Rnase P 序 列 , 排 列 
Database 和 结构 
SENTRA http://wit. mes. anl. gov/WIT2/Sentra/HTML) — 感觉 信号 传导 蛋白 
sentra. itml 
S/MARt db http: / /transfac. gbf.de/SMARtDB/ ene x 
SWISS-PROT http; //www. expasy. ch/sprot 蛋白 质 序列 
/TrEMBL 
TIGRFAMs http://www. tigr. org/TIGRFAMs 功能 已 确认 的 蛋白 
质 家 族 资 源 
TRANSFAC http: / /iransfec. gbf.de/TRANSFAC/index. html yz 因子 和 结合 位 
VIDA http://www. biochem. ucl，ac，uk/bsm/virus 局 源 的 病毒 蛋白 家 
database/VIDA. html 族 
Wn: Database http://www. stanford. edu/~ musse/wntwindow, Wnt 蛋白 和 表 型 
html 
trEST, trGEN — http; //hits. isb/-sib. ch 预测 的 蛋白 序列 
and Hits 
HARARE 
BLOCKS http: //blocks. fherc. org/ A 家 族 的 保守 序 
CDD http://www. ncbi. nlm. nih. gov/Structure/cdd/ — 保守 蛋白 结构 域 的 
cdd. shtml 排列 模型 
CluSTr http://www. ebi. ac. uk/clustr/ SWISS-PROT + 
TrEMBL 蛋白 自动 
分 类 到 相关 功能 组 
InterPro http://www. ebi. ac. uk/interpro/ 蛋白 家 族 、 结 构 域 和 
ga 的 整 和 文件 资 
O-GLYCBASE http://www. cbs. dtu. dk/databases/ REA O 连接 的 
OGLYCBASE/ 靖 基 化 位 点 
PIR-ALN http; / /www-nbrf. georgetown. edu/pirwww/ 蛋白 序列 排列 
dbinfo/piraln. html 
PRINTS http://www. bioinf. man. ac. uk/dbbrowser / 分 级 基因 家 族 指纹 


PRINTS/ 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
PROSITE http: //www. expasy. ch/prosite/ 具有 生物 学 意义 的 
蛋白 质 特征 和 基 序 
Pfam http: //www. sanger. ac. uk/Software/Pfam/ 多 序列 排列 和 共有 
蛋白 结构 域 的 
hidden Markov 模型 
ProClass http: //pir. georgeown. edu/gfserver/proclass. 由 PIR 8 X X 
html PROSITE 特征 定义 
的 蛋白 家 族 
ProDom http://www. toulouse. inra. fr/prodom. html 蛋白 质 结 构 域 家 族 
ProtoMap http://www. protomap. cs. huji. ac. il/ SWISS-PROT & Fl 
的 自动 分 级 分 类 
SBASE http://www. icgeb. trieste. it/~sbasesrv/ RRRRGNNA 
SMART http; / /smart. embl-heidelberg. de/ 信和 号 结构 域 序列 
SUPFAM http: / /pauling. mbu. isc. ernet. in/~supfam ri ine 的 序列 
SYSTERS http://www. dkfz-heidelberg. de/tbi/services/ 利用 各 种 其 他 信息 
cluster/systersform 资源 的 注解 将 蛋白 
FEA TH AT 
eMOTIF http; //motif. stanford. edu/emotif ROUEN. 
& 
iPROCLASS http; //pir. georgetown. edu/iproclass/ pity 的 蛋白 分 类 
蛋白 组 资源 
Aaindex http://www. genome. ad. jp/dbget/ gn 的 物理 化 学 性 
GELBANK http: / /gelbank. anl. gov/ 已 完成 基因 组 的 2D 
Se E 
Human Proteome http://www. proteome. com/services ADERAREA 
Survey Database 组 的 详细 信息 
Predictome http: //predictome. bu. edu/ + i 间 预 测 的 功 
Proteome http://www. ebi. ac. uk/proteome/ 全 基因 组 蛋白 质 的 
Analysis 功能 分 类 工具 
Database interpro 和 clustr 的 
在 线 应 用 
REBASE http: //rebase. neb. com/rebase/rebase. html 限制 性 内 切 酶 和 相 
关 的 甲 基 化 酶 
SWISS-2DPAGE http://www. expasy. ch/ch2d/ 已 注解 的 2 维 凝 胶 
电泳 数据 库 
Yeast Proteome htip://www. proteome. com/databases/index.html — 啤酒 酵母 的 蛋白 组 


Database (YPD) 


RERUM 


数据 库 名 称 和 分 类 
YPL 


RNA 序列 


16S and 238 
TRNA Mutation 
Database 


5S Ribosomal 
RNA Database 


ACTIVITY 
ARED 


Collection of 
mRNA-like 
Noncoding RNAs 
European Large 
Subunit 
Ribosomal RNA 
Database 
European Small 
Subunit 
Ribosomal RNA 
Database 

Guide RNA 
Database 
HyPaLib 


Intronerator 


Non-Canonical 
Interactions — in 


RNA 
PLMItRNA 


Pseudobase 


RISCC 
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互联 网 网 址 


内 容 介绍 


/ /fstgall?. tu-graz. ac. at: 1777 /pls/al12/ypl. 


htm 


http: //ribosome. fandm. edu/ 


http: //biobases. ibch. poznan. pl/5SData/ 


http;//wwwmgs. bionet. nsc. ru/mgs/systems/ 
activity/ 


http: //rc. kfshrc. edu. sa/ 


http; / /biobases. ibch. poznan. pl/ncRNA/ 


http: //rrna. uia. ac. be/Isu/index. html 


http; / /rrna. uia. ac. be/ssu/index. html 


http://www. biochem. mpg. de/~goeringe/ 
http: //bibiserv. techfak. uni-bielefeld. de/HyPa/ 


http://www. cse. ucsc. edu/~kent/intronerator/ 


http: //prion. bchs. uh. edu/bp — type/ 


http: / /bigarea. area. ba. cnr. it:8000/PLMItRNA / 


kttp: //wwwbio. leidenuniv. nl/~ Batenburg/PKB. 
html 


_ http: //ulises. umh. es/RISSC 


绿色 荧光 蛋白 标签 
和 共聚 焦 显 微 镜 确 
定 的 酵母 蛋白 定位 


16S 和 23S 核糖 体 
RNA 突变 数据 库 


5S rRNA 序列 


功能 性 DNA/RNA 
位 点 活性 

包含 AU 丰富 元 件 
的 mRNAs 


不 编码 蛋白 的 RNA 
转录 子 


Guide RNA 序列 
RNA 人 分 类 的 结 
Pen 


"niv 
结构 ;美丽 线 


基 
光合 成 真 核 生物 
线粒体 tRNA 基 
和 分 子 
RNA 假 结 点 
(pseudoknots) 信 息 
16S 和 23S cr 
RNA 


A 
a 
B 
的 
相 
的 
因 


Serer ee ree 


Database Project 
(RDP) 


SELEXdb 
SRPDB 

Small RNA 
Database 

The tmRNA 
Website 
UTRdb/UTRsite 
Viroids and 
viroid-like RNAs 


Yeast snoRNA 
Database 


tRNA Sequences 
tmRDB 
检索 系统 和 数据 
库 结 构 


KEYnet 


TESS 
Virgil 
结构 
ASTRAL 


Biolmage 


BioMagResBank 


http;//wwwmgs. bionet. nsc. ru/mgs/systems/ 
selex/ 


http://psyche. uthct. edu/dbs/SRPDB/SRPDB. 
html 


http://mber. bem. tmc. edu/smallRNA 


http://www. indiana. edu/~tmrna 


http; //bigarea. area. ba. cnr. it; 8000/EmbIT/ 
UTRHome/ 


http: //nt. ars-grin. gov/subviral/ 


http://www. bio. umass.  edu/biochem/rna- 
sequence/Yeast snoRNA _ Database/snoRNA — 
Data Base. html 

http://www. uni-bayreuth. de/departments / 
biochemie/trna/ 


http://psyche. uthet. edu/dbs/tmRDB/tmRDB. 
html 


http://www. ba. cnr. it/keynet. html 


http://www. cbil. upenn. edu/tess 
http://www. infobiogen. fr/services/virgil 
http; / /astral. stanford. edu/ 

http: //www-embl. bioimage. org/ 


htip: //www. bmrb. wise. edu/ 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
RNA bite: //medlib. med. utah. edu/RNAmods/ RNA BRB REE 
Modification 
Database 
Ribosomal http; //rdp. cme. msu. edu/ 


rRNA 序列 ,排列 和 
进化 

选择 的 DNA/RNA 
功能 位 点 序列 


信号 识别 颗粒 
RNA、 蛋 白 和 受 体 
序列 


从 原核 和 真 核 生物 

直接 测序 小 RNA 

M 
mR! 


E 
n FA ti ae 


jest mRNA3’ 
AS aE RA 
ttr 

RRERANER 


RPM RNAs 


tRNA 和 tRNA # 
因 序 列 

tmRNA — ( 10Sa 
RNA) FA 


数据 检索 用 基因 和 
蛋白 分 级 列表 


转录 元 件 查 找 系统 
数据 库 相互 链接 


,选择 的 序列 - 
Ek 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
CATH http://www. biochem, ucl. ac. uk/bsm /cath/ 蛋白 结构 域 结 构 的 

分 级 分 类 
CE http: / /cl. sdsc. edu/ce. html 计算 和 观察 3D 蛋 
白 结 构 排列 的 资源 
CKAAPs DB http: //cl. sdsc. edu/ckaap 序列 不 相似 但 结构 
相似 的 蛋 
CSD http://www. cede. cam. ac. uk/prods/esd/esd. html 。 S8 68 IR 
有 ae 合 物 晶体 结 
Database of http://bioinfo, mbb. yale. edu/MolMovDB/ E 述 蛋白 质 和 大 分 
Macromolecular 子 运动 ,包括 电影 
Movements 
Decoys ‘R’Us http://dd.stanford,edu/ 基于 序列 数据 由 计 
算 机 产生 的 蛋白 质 
构象 
DSDBASE http://www. ncbs. res. in/~ faculty/mini/dsdbase) 蛋白 质 中 天 然 的 和 
dsdbase. html 人 工 的 二 硫 键 
GTOP http: //spock. genes. nig. ac. jp/~genome/ 从 基因 组 序列 预测 
gtop-j. html 的 蛋白 质 结构 
HIC-Up http; //alpha2. bmc. uu. se/hicup/ 小 分 子 异 源 复合 物 
的 结构 
HSSP http://www. sander. ebi. ac. uk/hssp/ 结构 家 族 和 排列 , 结 
构 保守 区 和 结构 域 
IMB Jena Image http://www. imb-jena. de/IMAGE. html 生物 高 分 子 三 维 结 
Library of 构 分 析 和 可 视 化 
Biological 
Macromolecules 
ISSD http://www. protein. bio. msu. su/issd/ 整 和 序列 和 结构 信 
息 
LPFC http: //www-smi. stanford. edu/projects/helix/ 蛋白 家 族 核 心 结构 
LPFC/ XE 
MMDB ht:p: //www. ncbi. nlm. nih. gov/Structure/ 所 有 实验 测定 的 三 
维 结构 , 与 NCBI 
Entrez 链接 
ModBase http: //pipe. rockefelier. edu/modbase 比较 蛋白 结 
NDB http; //ndbserver. rutgers. edu/NDB/ndb. html 包含 核酸 的 结构 
NTDB http; //atdb. chem. cubk. edu. hk/ 核酸 的 热力 学 数据 
PALI http: //pauling. mbu. iisc. ernet. in/ ^-pzli 


同 源 蛋 白 结构 的 进 
化 树 和 排列 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
PDB http://www. resb. org/pdb/ 由 X 2 i A A 
NMR 确定 的 结构 
数据 
PDB-REPRDB http://www. rwcp. or. jp/papia/ XT PDB 记录 的 代 
表 性 蛋白 链 
PDBsum http://www. biochem. ucl. ac. uk/bsm/pdbsum ne 结构 的 摘要 和 
PRESAGE http: //presage. berkeley. edu/ E pan 测 注解 的 
ProTherm http://www. rtc. riken. go. jp/jouhou/protherm/ — 野生 型 和 突变 型 蛋 
protherm. html AMR DSR 
RESID http: //www-nbrf. georgetown. edu/pirwww/ 蛋白 结构 修饰 
dbinfo/resid. html 
SCOP http: / /scop. mrc-Imb. cam. ac. uk/scop/ EERSNER X 
SCOR http: / /scor. Ibl. gov/ RNA 结构 的 关系 
SLoop http: //www-cryst. bioc. cam. ac. uk/~sloop/ 蛋白 环 结构 的 分 类 
SUPERFAMILY — http://stash, mrc-Imb. cam. ac. uk/ 蛋白 质 结构 起家 族 
SUPERFAMILY/ 的 分 配 
转基因 
Cre Transgenic http://www. mshri. on. ca/nagy/cre. htm Cre 转基因 小 鼠 系 
Database 
Transgenic/ http; / /tbase. jax. org/ HERZWRS 
Targeted 突变 的 信息 
Mutation 
Database 
其 他 生物 医学 内 
容 
BAIiBASE http: //www-igbme. u-strasbg. fr/Biolnio/ 多 序列 对 齐 比较 的 
BaliB, dex. html 
DBeat PAlBASEZ/inder bem /services /dbsat/ ant 
DrugDB http: //pharminfo. com/drugdb/db ^ mau. html 有 药物 活性 的 复合 
物 ,种 类 和 商品 名 
END http://www. ibc. wustl. edu/biognosis/agora _ 酶 的 学 术 名 称 
interface/html/agora _ entrance. html 
Global ^ Image http://www. gwer. ch/qv/gid/gid. htm 已 注解 的 生物 学 图 
Database 象 
GlycoSuiteDB http: //www. glycosuite. com/ N- 和 0- 连接 的 糖 基 


结构 和 生物 学 资源 
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数据 库 名 称 和 分 类 互联 网 网 址 内 容 介绍 
HOX-PRO http://www. mssm. edu/molbio/hoxpro/new/hox-  Homeobox 4% [Ef 

pro00. html 
Imprinted Genes http://www. otago. ac. nz/IGC 动物 印记 基因 和 和 母 
and Parent of 本 源 性 效应 
Origin Effects 
LocusLink/ http://www. ncbi. nlm. nih. gov/LocusLink/ 遗传 位 点 的 序列 和 
RefSeq 描述 信息 
MPDB http://www. biotech. ist. unige. it/interlab/mpdb. 证 实 作为 引物 和 探 
html 针 有 用 的 合成 赛 核 
苷 酸 信息 
Molecular Probe http: //srs. ebi. ac. uk/ SAREE BR H 
Database 和 PCR 引物 
NCBI Taxonomy http://www. ncbi. nlm. nih. gov/Taxonomy/ 在 遗传 数据 库 中 至 
Browser taxonomyhome. html 少 有 一 个 核酸 或 蛋 
白 序列 的 所 有 生物 
的 名 称 
PubMed http; //www. ncbi. nlm. nih. gov/PubMed/ MEDLINE 和 Pre- 
ie 引证 信 
PharmGKB ht:p: //pharmgkb. org/ 由 于 人 个 体 差异 对 
-- Lil 
RIDOM http://www. ridom. de/ 基于 rRNA 序列 确 
认 医 学 微生物 
SWEET-DB http://www. dkíz-heidelberg. de/spec2/ 注解 的 碳水 化 合 物 
结构 和 物质 信息 
Therapeutic http: //xin. cz$. nus. edu. sg. /group/ttd/ttd. asp 治疗 用 蛋白 质 和 核 
Target Database BRA RBBB 
和 药物 信息 
Tree of Lite http: //phylogeny. arizona. edu/tree/phylogeny. 进化 树 和 生物 学 多 
html 样 性 信息 
Vectordb http: //vectordb. atcg. com/ peat 的 特征 和 
VirOligo http: //viroligo. okstate. edu/ 用 于 PCR 和 杂交 的 
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附录 二 ”生物 信息 学 定义 一 览 表 


给 出 的 定义 


美国 乔治 亚 
理工 大 学 


美国 密苏里 
大 学 


美国 加 利 福 
尼 亚 大 学 洛 
TVAE 


Whatis. com 


网 站 


美国 国立 卫 
生 院 


生物 信息 学 是 采用 数学 、 统 计 学 和 计算 机 等 方法 分 析 生 
物 学 ,生物 化 学 和 生物 物理 学 数据 的 一 种 综合 学 科 。 


生物 信息 学 是 获取 ,存储 和 处 理 生物 学 信息 的 一 门 科学 
与 技术 。 


生物 信息 学 是 对 生物 学 信息 和 生物 学 系统 内 在 结构 的 
研究 , 它 运用 数学 和 计算 机 科学 的 分 析 理 论 和 实用 工具 
将 分 散 的 生物 学 数据 联系 起 来 。 


生物 信息 学 是 以 加 快 生物 学 研究 为 目的 而 开发 计算 机 
数据 库 和 算法 的 一 门 科 学 。 


生物 信息 学 是 研究 .开发 和 应 用 计算 机 工具 和 方法 扩展 
生物 学 、 医 学 ,行为 科学 和 卫生 数据 的 利用 ,包括 数据 的 
获取 ,存储 ,组织 .检索 、 分 析 或 可 视 化 , 即 运用 信息 科学 
的 原理 和 技术 使 大 量 的 .分 散 的 和 复杂 的 生命 科学 数据 
更 加 明了 (understandable) 和 有 用 (useful)。 
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R 5l 

A c 
Alu 50 cDNA 42,114 
a 螺旋 35 Celera 公司 142 
氨基 酸 29 | CLUSTALW 83,127 
B Coffee Break 65 
Banklt sg 超级 计算 机 1 
Biolink 11 沉默 突变 42 
BLAST 53,93 ”催化 作用 38 
BLAST2 97 ”存储 38 

BLAST2. 0 96 D 
BLASTn 95 dbEST 52,77 
BLASTp 95 dbSTS 52,77 
BLASTx 95 DNA 39 
BLOSUM 矩阵 94 — DNAPLOT 81 
BRITE 83 DNA 芯片 116,189 
Brookhaven 蛋白 数据 库 77 KER AR HK EE 
BRE 35 (EcoCyc) 167 
北京 大 学 生物 信息 学 服务 器 蛋白 质 28 
10 蛋白 质 的 结构 类 型 数据 库 
比较 基因 组 学 44,144 (SCOP) 25 
表达 图 谱 138 ”和 蛋白质 构象 34 
表达 序列 标签 (EST) 蛋白 质 库 (PDB) — 25,51,77 
8,52,71,73 BARRE 35 
并 行 运算 17 ”蛋白质 组 (Proteome) 156 
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蛋白 质 组 学 (Proteomics) Gene Expression Omnibus 65 
6,156 Genes and disease 66 
等 位 基因 114 GenomeNet 82 
电子 PCR (electronic PCR) 65 GSS( 基 因 组 纵览 序列 ) 53 
定点 克隆 114 GRAIL 84,153 
动作 电位 183 ”高 速 链接 17 
多 序列 排列 83,127 ”高 通 量 基因 组 序列 数据 库 
多 态 性 标记 132 (high throughput genomic 
E sequence) 52 
共 价 键 35,37 
E. coli 51,52 
Electronic PCR 65 功能 重建 模型 166 
EMPL i 功能 性 脑 图 谱 182 
Entrez 53 MEN is 
谷 氨 酰胺 30 
EPD( 真 核 细胞 启动 子 数据 库 ) i 
5 
Euro Pat »" HIV 逆转 录 酶 173 
EXPASY 162.188 HMM (Hidden Markov 
E 值 98 Model) 15 
二 硫 键 37 Human genome resources 67 
Human map viewer 67 
FAEERE nee Human/mouse homology 
F maps 67 
FASTA 57,99 核磁 共振 (NMR ) 77 
BEA 37 BER 39 
分 子 进 化 133,155 核酸 39 
G 宏观 运算 17 
Gapped BLAST 96 ”互补 DNA 42,114 
GenBank 46,121 I 
GeneMap’98 141 IMGT 数据 库 78 


Cort I ED vn 


R uu 2177 

J L 
Japan Pat 100 Lander-Waterman 模型 
计算 机 算法 14 15,151 
基因 39,43 L-a 氨基酸 29 
3% FA AKER (knockout) 165 LIGAND 83 
基因 组 111 LIGM-DB 80 
基因 组 结构 133 LocusLink 67 
基因 组 学 6,111 RAR 29,87 
基因 组 研究 院 (TIGR) 8 JE (centimorgan,cM) 137 
集中 式 数 据 库 (centralized 联众 研究 院 生物 信息 分 析 平 台 
database) 119 10 
间 沟 (gap) 95,96 ZAMAH 35 
角 化 细胞 数据 库 165 M 
酵母 蛋白 质 组 学 数据 库 Malaria genetics & genomic 
(YPD) 130,165 68 
结构 域 128 MHC/HLA-DB 80 
进化 树 134 Mito 52 
MAR 29 — MMDB 59 
静电 引力 35 Month 51,52 
聚合 酶 链 式 反应 116 — MOTIF 83,93 
局 部 排列 工具 91 ”美国 国家 生物 技术 信息 中 心 
局 域 网 16,103 (NCBI) 48 

K 美国 国家 医学 图 书馆 (NLM) 
Kabat 51,52 48 
Kyoto Encyclopedia of Genes 密码 子 倾向 性 42 
and Genomes (KEGG) 85 N 
开放 读 框 ORF 128 Northern blot 113 


克隆 112 
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NR CE ICA FF SU MGR OY 
51,52 
纳米 技术 12 
讲 性 纤维 化 185 
逆转 录 酶 42,116 
鸟 枪 法 测序 143 
路 齿 类 动物 分 子 效 应 数据 库 
165 
(0) 
ORF finder 129 
OMIM 数据 库 58 
欧洲 生物 信息 研究 所 (CEBI) 71 
P 
PAM 系列 矩阵 94 
PC 机 16 
PowerBLAST 97 
PROSITE 103 
Protein Data Bank 51 
PSI-BLAST 97 
PSORT 程序 84 
PubMed 53 
拼写 监测 器 15 
Q 
QT 间 期 延长 综合 征 184 
ae 36 
醛固酮 89 
R 


Radiation hybrid 数据 库 — 76 


Reference sequence project 68 


Retrovirus resources 69 
RNA (核糖 核酸 ) 39 
人 类 基因 组 计划 143 
人 类 免疫 缺陷 病毒 173 
人 类 脑 研究 计划 179 
人 脑 图 谱 182 
日 本 生物 信息 学 服务 器 82 
TRH 50,140 
S 
Score 99 
Serial analysis of gene 
expression 69 
SKY/CGH database 70 
SOSUI 85 
Structure 59 
SWALL 99 
SWISS-2DPAGE 162 
SWISS-PROT 51,76 
三 维 成 像 172 
神经 生物 信息 学 179 
神经 网 络 (NNs) 15 
生命 之 树 134 
生物 信息 学 2 
双 螺 旋 结构 40 
数据 库 46 
Bizk 35 


WK EREM 30 


T 
Taxonomy 59 
tBLASTn 96 
tBLASTx 96 
TFSEARCH 84 
Trace archive 70 
肽 键 33 
肽 链 34 
天 门 冬 酰胺 30 
调节 蛋白 38 
同 源 同 组 物 (paralogs) 149 
同 源 异种 组 (COGs) — 64,148 
U 
UniGene 70 
USPTO Pat 100 
V 
VecScreen 71 
Vector 52 
Ww 
working draft 142 


未 确认 的 读 框 URFs 128,147 


伪 色 成 像 (False color 

imaging) 181 

物理 图 谱 138 
X 


X 线 唱 体 衍射 技术 77 


引 。219 。 
限制 性 片段 长 度 多 态 性 13 
信号 传递 38 
信号 肽 128 
锌 指 结构 35 
序列 标签 位 点 119,139 
序列 相似 性 搜索 工具 89 
虚拟 细胞 176 
虚拟 医生 174 
Y 
Yeast 51,52 
遗传 连锁 图 谱 136 
遗传 密码 40 
遗传 印记 7 
易 接 近 的 表面 区 域 (ASA) 36 
原生 质 属 44 
Z 
真 核 生 物 44 
真 细菌 44 
整体 排列 工具 91 
中 国 科 学 院 基因 组 信息 学 中 心 
10 
肿瘤 基因 组 解剖 计划 (Cancer 
Genome Anatomy Project) 60 
转基因 动物 165 
转录 谱 113 
组 蛋白 133 


me 


后 id 


这 部 书稿 完成 于 去 年 的 9 月底 .其 后 又 反复 修改 了 四 个 月 ,可 
谓 是 二 吻 其 稿 .在 编 书 改 稿 的 过 程 中 ,我 们 对 这 门 学 问 的 发 展 变化 
之 快 及 其 网 络 资讯 的 丰富 浩 翰 , 归 有 感触 。 因 此 ,努力 尝试 着 写 出 
f ~ BUE A A hi, ZR BE EL AE 0E SQ BR Hi dec dr P6 E R AAG TA II E 
| 以 增强 本 书 的 实用 价值 。 
: 本 书 的 各 种 数据 资料 是 截至 全 2002 年 1 月 底 的 最 新 资讯 。 其 
| 中 的 绝 大 部 分 ,我 们 做 了 反复 的 核对 ,由 于 不 同 的 数据 库 公 布 最 新 
Í 统计 结果 的 日期 不 同 ,我 们 以 能 查寻 到 的 最 近 结果 为 准 . 书 末 附 录 
| 的 (分子 生物 党 数据 库 一 览 表 ;也 是 今年 1 月 最 新 的 修 定 结果 , 希 
| 望 能 对 大 家 有 所 帮助 ， 
| 另外 , 书 中 有 不 少 英文 专 有 名 词 及 缩写 .大 部 分 附 有 汉 译 ,有 
| RF. 这 是 考虑 到 一 些 缩写 已 为 人 们 所 熟知 ,以 不 译 为 要。 为 了 
Í 
| 
t 
i 


i 


读者 查找 方便 .目录 中 的 不 少 项 是 按 诛 英语 名 称 编排 的 ,但 止 文中 
会 有 相应 的 中 文 解释 。 
尽管 我 们 作 了 一 些 努 力 ,但 有 道 是 " 书 不 尽 言 , 言 不 尽 意 ”, 这 
1 本 小 书 只 能 论 太 生物 人 f 
免 . 诚 希 读者 诺 君 批评 指 
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Wt : dum 书 治学 . 盖 将 以 脱 心志 于 俗 育 之 栋 
模 ,真理 内 得 以 发 扬 ” 
愿 与 各 位 共勉 
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